上QQ阅读APP看书，第一时间看更新

序

从 2009 年我在加州大学伯克利分校最初发起项目至今，Apache Spark 已经发生了天翻地覆的变化。在捐献给 Apache 软件基金会后，这个开源项目累计有来自数百家公司超过 1400 名贡献者参与贡献，全球的 Spark meetup 小组成员更是已经超过 50 万。Spark 的用户基础已经非常多样化，包含 Python、R、SQL 和 JVM 的开发人员，使用 Spark 的场景从数据科学到商业智能，再到数据工程。一直以来，我与 Apache Spark 社区紧密合作，继续推进 Spark 的发展，目前的进展让我兴奋不已。

Spark 3.0 的发布是 Spark 项目的重大里程碑，也激起了更新学习材料的需求。出版本书第 2 版的想法已经出现了多次，真是千呼万唤始出来！虽然我参与了本书第 1 版和《Spark 权威指南》的写作，但应该将讲解 Spark 的机会交给下一代的 Spark 贡献者了。我很荣幸地看到，从早期就开始深度参与 Apache Spark 项目的 4 位经验丰富的开发人员组成了团队来撰写这本书的第 2 版，为其他 Spark 开发人员整理了最新的 API 和最佳实践，提供了这样一本简明实用的指南。

作者对这本书的内容编排非常适合动手学习。Spark 和分布式大数据处理中的关键概念已经提炼为循序渐进的章节。这本书的代码示例简单明了，通过边做边学，开发人员可以建立起使用 Spark 的自信，并对 Spark 的结构化数据 API 及其使用获得更深刻的理解。无论你要用 Spark 解决什么问题，我希望这本书都能引导你在大规模数据处理之路上前进。

——Matei Zaharia
Databricks 联合创始人兼首席技术专家、斯坦福大学助理教授、Apache Spark 创始人