Spark内核设计的艺术:架构设计与实现
上QQ阅读APP看书,第一时间看更新

本书赞誉

当年我在英国从事大数据工作,会经常去硅谷拜访大数据公司。其中最重要一个公司就是Spark创始人创建的Databricks了,最早一次是2013年10月,彼时Databricks刚起步,新办公室也尚在筹备。

4年过去了,我们在大数据、流计算、图计算、分布式机器学习、深度学习等领域有了越来越多的高质量开源选择,但是Spark仍然是数据科学家们用得最多的工具之一,了解一点Spark底层技术的人都不得不对Spark的设计及其分布式计算的理论基础表示由衷敬佩。

本书对Spark内部高度抽象的数据结构RDD、分布式DAG调度器/驱动器,以及高效的基于Non-blocking IO分布式计算框架Akka/Netty等内核设计进行了深度剖析,不可多得,是适合大型分布式计算架构师和资深开源贡献者阅读的参考书。

——蔡栋,万达网络科技集团总裁助理兼首席数据官、首席架构师

大数据技术生态其实是一个千姿百态的江湖。从学习技术的角度,最重要的是能将厚变薄,将纷繁复杂的信息进行归类和抽象。对应到大数据技术体系,虽然各种技术百花齐放,层出不穷,但大数据技术本质上无非解决4个核心问题:存储,计算,查询,挖掘。而Spark发展的短短几年,以迅雷不及掩耳之势推出RDD、Spark Streaming、Spark SQL、GraphX、MLlib等一系列模块,震撼了大数据圈。这本书结合了最新Spark 2.x版本,在设计思路和代码解析上做了很好的平衡,让开源代码爱好者,喜欢研究源码的同学汲取到一些阅读源码的方法。

——董飞,datatist首席运营官、前linkedin资深工程师

初读本书有种似曾相识的感觉,Spark还是那个Spark,但是本书多了一些岁月的痕迹,在技术之上多了一些艺术,也更加注重读者的口味。大数据的书很多,能够写出艺术味道的不多,本书应该可以让你在大数据漫漫征途之中对价值多了一重思考,也可以让你在大数据之巅的惊天骇浪中多了一座灯塔。

——于俊,科大讯飞大数据专家

制度信息化,信息工具化,Spark为大数据产业落地提供有力的技术支撑工具!它以内存计算为核心,以其通用、快速和完整的数据工具形成了一个强有竞争力的数据生态圈,成为大数据技术解决方案非常优秀的一个部分,越来越多企业应用部署Spark。本书为那些想要成为一名合格的Spark工程师,或者致力于成为大数据行业的技术管理人才提供了很好的学习途径。相信读者只要掌握一门Spark技术,就能在大数据的海洋中遨游。感谢笔者为大数据产业做出的贡献!

——张涵诚,中关村大数据交易产业联盟副秘书长

本书对Spark原理的讲解与剖析都极具学习意义,作者细致分析了Spark源码的每一个关键细节,对初级用户及中高级用户都有指导意义。

——王欢,上海添锡信息技术有限公司技术总监