上QQ阅读APP看书，第一时间看更新

本书赞誉

当年我在英国从事大数据工作，会经常去硅谷拜访大数据公司。其中最重要一个公司就是Spark创始人创建的Databricks了，最早一次是2013年10月，彼时Databricks刚起步，新办公室也尚在筹备。

4年过去了，我们在大数据、流计算、图计算、分布式机器学习、深度学习等领域有了越来越多的高质量开源选择，但是Spark仍然是数据科学家们用得最多的工具之一，了解一点Spark底层技术的人都不得不对Spark的设计及其分布式计算的理论基础表示由衷敬佩。

本书对Spark内部高度抽象的数据结构RDD、分布式DAG调度器/驱动器，以及高效的基于Non-blocking IO分布式计算框架Akka/Netty等内核设计进行了深度剖析，不可多得，是适合大型分布式计算架构师和资深开源贡献者阅读的参考书。

——蔡栋，万达网络科技集团总裁助理兼首席数据官、首席架构师

大数据技术生态其实是一个千姿百态的江湖。从学习技术的角度，最重要的是能将厚变薄，将纷繁复杂的信息进行归类和抽象。对应到大数据技术体系，虽然各种技术百花齐放，层出不穷，但大数据技术本质上无非解决4个核心问题：存储，计算，查询，挖掘。而Spark发展的短短几年，以迅雷不及掩耳之势推出RDD、Spark Streaming、Spark SQL、GraphX、MLlib等一系列模块，震撼了大数据圈。这本书结合了最新Spark 2.x版本，在设计思路和代码解析上做了很好的平衡，让开源代码爱好者，喜欢研究源码的同学汲取到一些阅读源码的方法。

——董飞，datatist首席运营官、前linkedin资深工程师

初读本书有种似曾相识的感觉，Spark还是那个Spark，但是本书多了一些岁月的痕迹，在技术之上多了一些艺术，也更加注重读者的口味。大数据的书很多，能够写出艺术味道的不多，本书应该可以让你在大数据漫漫征途之中对价值多了一重思考，也可以让你在大数据之巅的惊天骇浪中多了一座灯塔。

——于俊，科大讯飞大数据专家

制度信息化，信息工具化，Spark为大数据产业落地提供有力的技术支撑工具！它以内存计算为核心，以其通用、快速和完整的数据工具形成了一个强有竞争力的数据生态圈，成为大数据技术解决方案非常优秀的一个部分，越来越多企业应用部署Spark。本书为那些想要成为一名合格的Spark工程师，或者致力于成为大数据行业的技术管理人才提供了很好的学习途径。相信读者只要掌握一门Spark技术，就能在大数据的海洋中遨游。感谢笔者为大数据产业做出的贡献！

——张涵诚，中关村大数据交易产业联盟副秘书长

本书对Spark原理的讲解与剖析都极具学习意义，作者细致分析了Spark源码的每一个关键细节，对初级用户及中高级用户都有指导意义。

——王欢，上海添锡信息技术有限公司技术总监