上QQ阅读APP看书,第一时间看更新
序
在数字经济时代,数据是最重要的资源要素;同时,新的衍生数据又在源源不断地产生,企业面临的一个基本问题就是如何管理和利用这些数据,这对传统的数据处理方法与分析框架提出了新的诉求和挑战,也是全球业界与学界最为关心的问题。为了满足大数据时代对信息的快速处理的需求,一个分布式的开源计算框架Apache Spark应运而生。
经过十年的发展,Spark已经发展成为目前大数据处理的标杆,在整个业界得到了广泛的使用。对大数据工程师来说,用Spark构建数据管道无疑是很好的选择,而对数据科学家来说,Spark也是高效的数据探索工具。
作者是我在业界的同事,他是一名大数据架构师,在工作中运用Spark和相关数据处理框架很好地完成了工作任务和创新项目,使公司大数据处理系统高效稳定地运转并驱动整个公司的业务发展。在与数据爱恨纠缠的工作过程中,作者积累了大量的实践经验,我很高兴并支持他将在实践中取得的经验系统性地总结出来,并写成本书。我相信本书会为学习Spark的读者带来很大的帮助。
袁先智博士 中山大学和苏州大学特聘教授,International Journal of Financial Engineering主编,成都数联铭品科技有限公司资深副总裁与首席风险官