Spark快速大数据分析(第2版)
上QQ阅读APP看书,第一时间看更新

从 2009 年我在加州大学伯克利分校最初发起项目至今,Apache Spark 已经发生了天翻地覆的变化。在捐献给 Apache 软件基金会后,这个开源项目累计有来自数百家公司超过 1400 名贡献者参与贡献,全球的 Spark meetup 小组成员更是已经超过 50 万。Spark 的用户基础已经非常多样化,包含 Python、R、SQL 和 JVM 的开发人员,使用 Spark 的场景从数据科学到商业智能,再到数据工程。一直以来,我与 Apache Spark 社区紧密合作,继续推进 Spark 的发展,目前的进展让我兴奋不已。

Spark 3.0 的发布是 Spark 项目的重大里程碑,也激起了更新学习材料的需求。出版本书第 2 版的想法已经出现了多次,真是千呼万唤始出来!虽然我参与了本书第 1 版和《Spark 权威指南》的写作,但应该将讲解 Spark 的机会交给下一代的 Spark 贡献者了。我很荣幸地看到,从早期就开始深度参与 Apache Spark 项目的 4 位经验丰富的开发人员组成了团队来撰写这本书的第 2 版,为其他 Spark 开发人员整理了最新的 API 和最佳实践,提供了这样一本简明实用的指南。

作者对这本书的内容编排非常适合动手学习。Spark 和分布式大数据处理中的关键概念已经提炼为循序渐进的章节。这本书的代码示例简单明了,通过边做边学,开发人员可以建立起使用 Spark 的自信,并对 Spark 的结构化数据 API 及其使用获得更深刻的理解。无论你要用 Spark 解决什么问题,我希望这本书都能引导你在大规模数据处理之路上前进。

——Matei Zaharia
Databricks 联合创始人兼首席技术专家、斯坦福大学助理教授、Apache Spark 创始人