Spark快速大数据分析(第2版)
上QQ阅读APP看书,第一时间看更新

1.1.3 Spark在AMPLab崭露头角

一批来自美国加州大学伯克利分校、具有 Hadoop MapReduce 经验的研究人员接受了挑战,并推出了 Spark 项目。他们认为,在交互式计算和迭代计算作业中,MR 表现得较为低效且难用,而且 MR 的学习成本较高。因此,他们一开始的出发点就是要让 Spark 更快、更简单、更好用。2009 年,Spark 项目在 RAD 实验室诞生,后来该实验室改名为 AMPLab(现在名叫 RISELab)。

早期的 Spark 论文显示,对于某些作业,Spark 比 Hadoop MR 快 10~20 倍。现如今,Spark 已经快了好几个数量级。Spark 项目的中心思想是,借鉴 Hadoop MR 的思想并增强系统,加上高容错性和高并发,支持将迭代式或交互式映射和归约计算的中间结果存储在内存中,并向用户提供支持多种语言、简单、易组合的 API 作为编程模型,一站式支持各种使用场景。稍后将介绍这个所谓的“一站式”概念,这是 Spark 的重要主题之一。

到 2013 年,Spark 已经得到了广泛使用。包括 Matei Zaharia、Ali Ghodsi、Reynold Xin、Patrick Wendell、Ion Stoica 和 Andy Konwinski 在内的一些最初的作者和研究人员将 Spark 项目捐献给了 Apache 软件基金会,并组建了 Databricks 公司。

2014 年 5 月,在 Apache 软件基金会的管理下,Databricks 与开源社区的开发人员共同发布了 Apache Spark 1.0。在发布的这第一个主版本的基础上,包括 Databricks 在内的 100 多家公司的开发人员为 Apache Spark 贡献了大量的重要特性,整个项目保持着良好的发布频率。