大数据理论与工程实践
上QQ阅读APP看书,第一时间看更新

前言

大数据是近年来炙手可热的一个词汇。无论是国家还是企业,都希望从大数据产业的发展中获益,而科学家、工程师们也希望在这个新兴的行业中获得较高的回报。因此,市面上大数据相关的书籍也快速丰富了起来,从概述类的书到具体介绍某项技术的书,应有尽有。而本书则从工程实践和基础理论角度讲述大数据的应用,为不同的大数据应用场景提供了思路。

目前,在实际应用中,人们往往通过架设Hadoop,以及基于Hadoop生态的各种系统来满足大数据应用需求。然而,不是所有的大数据应用都适合用Hadoop的数据存储方式、系统架构和计算模型。例如,对于高实时性要求或者高并发的应用场景,Hadoop就不适合,因此出现了许多基于Hadoop生态的扩展,以解决某些特定类型的问题。

近年来,大数据技术一直处于高速发展中,很多两年前非常流行的技术逐渐淡出或者销声匿迹了。作为大数据业务的开创者和领头羊,Google公司从未停止过对技术的改进甚至颠覆,例如将数据存储从GFS发展到了BigTable,也推出了Dremel和Pregel等新的计算框架。这是因为Google的工程师了解需求,也知道这些需求背后的技术原理,懂得根据需求权衡和选择最适合特定需求的技术路线和方案;而不是只有榔头这一个工具,导致看任何问题都像是钉子,而解决问题的手段也只有敲击这一项。

本书不是大数据技术手册,也不是某种具体技术的说明;而是面对具体应用场景时的技术考虑和权衡。在实际应用中,各类大数据应用方案没有优劣之分,只有适合或不适合的差异。甚至大部分情况下,任何选择都需要付出代价,而针对这种收益和代价的衡量及评估才是本书所关注的。此外,书中也会出现一些具体的示例代码,作者提供这些示例代码,希望体现其背后的原理,即使某段代码采用了特定的语言和系统,也不代表在该场景下推荐使用该语言及语言所依赖的系统。

本书通过探讨技术原理,帮助读者选择合适的工具,或者自行开发适合自己应用场景的工具,无论这个工具是榔头还是钻子,是刨子还是螺丝刀,甚至是目前还不存在的某种类型的工具。作者团队衷心希望本书能为国内大数据企业建立自己的技术特色和技术优势贡献微薄之力。

本书目标读者群:主要面向架构师,或者是有具体大数据问题需要解决的工程师;也适合从零开始搭建大数据架构,或者需要将现有的非大数据的需求修改成大数据方案的读者和相关专业学习者。同时,对于那些实际上正从事大数据相关工作而自己并不清楚这一点的个人或企业,本书也能给你们带来启发。

非本书的目标读者群:希望通过教科书式学习从而掌握大数据的某项具体技术的读者;希望通过一本书就知道大数据是什么,从而可以找到一份大数据工作的人士。

本书作者都长期从事大数据相关的工作,对于很多具体的技术有自己的看法和独到见解,也真正踩过很多坑。由于应用场景的不同,作者对于技术的理解和认识也可能存在差异。我们希望这本书的推出能够抛砖引玉,涌现出更多精彩著作。