Spark快速大数据分析(第2版)
上QQ阅读APP看书,第一时间看更新

1.4.2 社区接受度与社区发展

毫无疑问,Spark 在开源社区引起了共鸣,特别是在数据工程师和数据科学家群体中。它的设计哲学以及 Apache 软件基金会项目对它的接纳极大地激发了开发社区的兴趣。

如今,全球有超过 600 个 Apache Spark Meetup,共有近 50 万成员。每周,世界上都有人在 Meetup 或会议上发表演讲,或者分享博客,介绍如何用 Spark 构建数据流水线。Spark + AI Summit 则是专注于在各种垂直领域中将 Spark 用于机器学习、数据工程及数据科学的最大的会议。

自 2014 年发布第一个正式版本 1.0 之后,Spark 已经发布过很多次或大或小的版本,最新的大版本 Spark 3.0 于 2020 年发布。本书会介绍 Spark 2.x 和 Spark 3.0 的各方面内容。书中的大部分代码是基于 Spark 3.0 的第二个公开预览版进行测试的。

在发展过程中,Spark 吸引了来自世界各地的贡献者。如今,Spark 已经有近 1500 位贡献者,超过 100 个发布版本,在 GitHub 上有 21 000 个复刻 5,约 27 000 次提交,如图 1-7 所示。我们希望你读完本书之后也能义不容辞地参与贡献。

5根据开源中国的提议,fork 译为复刻。——译者注

图 1-7:Apache Spark 项目在 GitHub 上的状态

接下来我们可以尽情享受学习新知识的快乐了,就从如何入门 Spark 开始。第 2 章将讲解如何通过 3 个简单的步骤来启动并运行 Spark。