
作者:〔美〕托马兹·卓巴斯(Tomasz Drabas), 〔美〕丹尼·李(Denny Lee)
分类:编程语言
字数:70119字
ISBM:9787111582380
价格:¥20.00
出版社:机械工业出版社/2017-11
提供方:华章数媒
提供方简介:把业界大师收入囊中,将图书馆带在身上。 经济管理、金融投资、心理励志、计算机网络 http://www.hzmedia.com.cn/
图书简介:Python是数据分析最常用的语言之一,而Apache Spark是一个开源的强大的分布式查询和处理引擎。本书用详尽的例子介绍了如何使用Python来调用Spark的新特性,如何处理结构化和非结构化的数据,如何使用PySpark中一些基本的可用数据类型,如何生成机器学习模型、操作图像、阅读串流数据以及在云上部署你的模型。数据是每个人身边都存在的,理解学习比较容易,但是数据量足够大才是一个相对准确的学习平台。在实践中,如何确定训练集合、如何将脏数据处理为清洁数据、如何填充数据等等,需要结合本书的知识理论,清楚了解待处理的大数据特性。每一种数据的特征或特性都不一致,所以前期的准备和调研必不可少。本书不仅仅是一本工具书,也是一本能深入浅出、结合简单实例来介绍PySpark语言的书。