Spark机器学习进阶实战
上QQ阅读APP看书,第一时间看更新

前言

上善若水,水善利万物而不争。

数据一如水,无色无味,非方非圆,以百态存于自然,于自然无违也。绵绵密密,微则无声,巨则汹涌;与人无争却又容纳万物。生活离不开水,同样离不开数据,我们被数据包围,在数据中生活,体会着数据量爆炸式增长带来的幸福和挑战。

本书从《道德经》和《庄子》精选名言,并结合大数据机器学习相关内容,对名言加以讲解,引导大家以老庄的思想认识大数据的内涵,使用机器学习进行大数据价值挖掘,探求老子道之路和庄子智慧之路。

为什么要写这本书

2014年春天,曾经和公司大数据团队小伙伴一起聚焦研究大数据,为了解决国内资料匮乏、学习门槛较高的问题,着手编写《Spark核心技术与高级应用》该书已由机械工业出版社出版,书号为ISBN 978-7-111-52354-3。——编辑注一书,并于2016年1月出版,取得了较好的反响,得到很多朋友的支持。

近年来,随着收集、存储和分析的数据量呈爆炸式增长,大规模的数据分析和数据价值挖掘能力已经成为影响企业生死存亡的关键,越来越多的企业必须面对这残酷而美好的挑战。基于大数据的机器学习有效解决了大数据带来的数据分析和数据挖掘瓶颈。

如何让更多的大数据从业人员更轻松地使用机器学习算法进行大数据价值挖掘,通过简单的学习建立大数据环境下的机器学习工程化思维,在不必深究算法细节的前提下,实现大数据分类、聚类、回归、协同过滤、关联规则、降维等算法,并使用这些算法解决实际业务场景的问题。2016年秋天,在机械工业出版社高婧雅编辑的指导下,怀着一颗附庸风雅之心,我决定和小伙伴们一起朝着新的目标努力。

本书的写作过程中,Spark版本也在不断变化,秉承大道至简的原则,我们一方面尽量按照新的版本进行统筹,另外一方面尽量做到和版本解耦,希望能抛砖引玉,以个人的一些想法和见解,为读者拓展出更深入、更全面的思路。

本书只是一个开始,如何使用机器学习算法从海量数据中挖掘出更多的价值,还需要无数的大数据从业人员前赴后继,突破漫漫雄关,共同创造美好的大数据机器学习时代。

本书特色

本书介绍大数据机器学习的算法和实践,同时对传统文化进行了一次缅怀,吸收传统文化的精华,精选了《道德经》和《庄子》部分名言,实现大数据和哲学思想的有效统一。结合老子的“无为”和庄子的“天人合一”思想,引导读者以辩证法思考方式认识大数据机器学习的内涵。

从技术层面上,本书一方面基于Spark现有的机器学习库讲解,另一方面尽量做到和现有Spark版本中的机器学习库解耦,突出对大数据机器学习的宏观理解,并给出典型算法的工程化实现,使更多的人轻松使用机器学习进行大数据价值挖掘,从而建立大数据机器学习工程化思维,在不必深究算法细节的前提下有效解决实际问题。本书更加强调在实际场景中的应用,并有针对性地给出了综合应用场景。

从适合读者阅读和掌握知识的结构安排上讲,本书分“基础篇”“算法篇”“综合应用篇”三个维度层层推进,便于读者在深入理解基础上根据相应的解决思路找到适合自己的方案。

本书使用的机器学习算法和应用场景都是实际业务的抽象,并基于具体业务进行实现。作为本书的延续,接下来我们会聚焦应用实践并提供更深层次的拓展,专注知识图谱的技术与应用,以及Bot技术与构建实战,期待相关图书能和读者尽早见面。

读者对象

(1)对大数据感兴趣的读者

伴随着大数据时代的到来,很多工作都和大数据息息相关,无论是传统行业、互联网行业,还是移动互联网行业,都必须要了解大数据,通过大数据发现自身的价值。对这部分读者来说,本书的内容能够帮助他们加深对大数据/机器学习及其演进趋势的理解,通过本书可以了解机器学习相关算法,以及Spark机器学习应用场景和存在价值,如果希望更深层次地掌握Spark机器学习相关知识,本书可以作为一个很好的开始。

(2)从事大数据机器学习算法的研究人员

本书基于分类、聚类、回归、关联规则、协同过滤、降维等算法,结合异常检测、用户画像、广告点击率预估、企业征信大数据、智慧交通大数据等场景,系统地讲解了Spark机器学习相关知识,对从事大数据算法的研究人员来说,能够身临其境地体验各种场景,了解各类算法在不同场景下的优缺点,减少自己的研究成本。本书对生产环境中遇到的算法建模、数据挖掘等问题有很好的借鉴作用。

(3)大数据工程开发人员

大数据工程开发人员可以从本书中获取需要的机器学习算法工程化知识。对大数据工程开发人员来说,掌握并快速对算法进行工程化,是很重要的技能,本书为填补算法工程开发人员与算法研究人员之间的鸿沟、高效工作提供了更多可能。

(4)大数据架构设计人员

基于大数据的采集、存储、清洗、实时计算、统计分析、数据挖掘等是大数据架构师必备技能。他们需要对Spark机器学习进行了解,才能在架构设计中综合考虑各种因素,构建稳定高效的大数据架构。

如何阅读本书

本书分为三篇,共计13章内容。

基础篇(第1和2章),对机器学习进行概述讲解,并通过Spark机器学习进行数据分析。

算法篇(第3~8章),针对分类、聚类、回归、关联规则、协同过滤、降维等算法进行详细讲解,并进行算法建模应用实现。

综合应用篇(第9~13章),综合异常检测、用户画像,引出广告点击率预估,并对企业征信大数据、智慧交通大数据等场景进行实践,详细讲解基于Spark的大数据机器学习综合应用。

勘误和支持

由于笔者的水平有限,编写时间仓促,书中难免会出现一些错误或者不准确的地方,恳请读者批评指正。如果你有更多的宝贵意见,可以通过大数据技术交流QQ群435263033,或者邮箱datadance@163.com联系我们,期待能够得到大家的真挚反馈,在大数据和人工智能征程中互勉共进。

致谢

感谢亲爱的搭档马海平、吕昕、向海三位大数据专家以及谭昶博士,在本书写作遇到困难的时候,我们一直互相鼓励,牺牲休息时间,坚持不放弃。

感谢大数据团队的张志勇、张龙、陈爱华、杨柳、俞祥祥、王庆庆、牛鑫、谢榭、李雅洁,以及廖攀、覃雪辉等小伙伴,你们为本书的修改贡献了宝贵的智慧,你们的参与使本书更上一层楼。

本书使用了部分互联网测试数据,包括:Stanford的gowalla数据、360的应用市场数据、UCI的鸢尾花卉数据和裙子销售数据、数据堂的豆瓣电影评分数据、Digit数据集、新闻App的用户行为数据、某运营商手机信令数据、某地图路况的道路拥堵指数数据,在这里进行特别感谢。

最后特别祝福本书写作期间出生的马海平家的二宝和向海家的二宝,你们的出生代表了大数据机器学习有了新的传承,也让我们的努力变得更有意义。

谨以此书献给大数据团队的小伙伴,以及众多热爱大数据机器学习技术的朋友!

于俊

2018年8月