数据挖掘(第2版)
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

总序

短短几年间,大数据的发展速度一日千里,快速实现了从概念到落地的进程,直接带动了相关产业的井喷式发展。全球研究机构统计数据显示,大数据产业将迎来发展黄金期:根据IDC数据,2020—2024年全球大数据市场规模在五年内约实现10.4%的复合增长率,预计2024年全球大数据市场规模约为2983亿美元。

数据采集、数据存储、数据挖掘、数据分析等大数据技术在越来越多的行业中得到了应用,随之而来的就是大数据人才问题。麦肯锡预测,每年数据科学专业的应届毕业生将增加7%,然而仅高质量项目对专业数据科学家的需求每年就会增加12%,供不应求。根据相关报道,未来3~5年,中国需要180万数据人才,但目前只有约30万人,人才缺口近150万人。

以贵州大学为例,其首届大数据专业研究生就业率达到100%,可以说被“一抢而空”。急切的人才需求直接催热了大数据专业,教育部正式设立“数据科学与大数据技术”本科专业。

不过,就目前而言,在大数据人才培养和大数据课程建设方面,大部分高校仍然处于起步阶段,需要探索的问题还很多。首先,懂大数据的老师较少,院校缺“人”;其次,尚未形成完善的大数据人才培养和课程体系,院校缺“机制”;再次,大数据实验需要为每个学生提供集群计算机,院校缺“机器”;最后,院校没有海量数据,开展大数据教学科研工作缺“原材料”。

其实,早在网格计算和云计算兴起时,我国科技工作者就曾遇到过类似的挑战,我有幸参与了这些问题的解决过程。为了解决网格计算问题,我在清华大学读博期间,于2001年创办了中国网格信息中转站网站,每天花几个小时收集有价值的资料并分享给学术界,此后我也多次筹办和主持全国性的网格计算学术会议,进行信息传递与知识分享。2002年,我与其他专家合作完成的《网格计算》教材也正式面世。

2008年,当云计算开始萌芽之时,我创办了中国云计算网站(chinacloud.cn)(目前更名为“云计算世界”);2010年,我编写了《云计算》;2011年和2015年,我分别修订了《云计算》第2版和第3版,对每一版都花费了大量成本制作并免费分享对应的教学PPT。目前,《云计算》一书已成为国内高校优先选择的优秀教材。2010—2014年,该书在中国知网公布的高被引图书名单中,位居自动化和计算机领域第一位。

除了资料分享,2010年,我们在南京组织了全国高校云计算师资培训班,培养了国内第一批云计算老师,并通过与华为、中兴、奇虎360等知名企业合作,输出云计算技术,培养云计算研发人才。这些工作获得了大家的认可与好评,此后我也担任了工业和信息化部云计算研究中心专家、中国云计算专家委员会云存储组组长、第45届世界技能大赛中国区云计算选拔赛裁判长/专家指导组组长、中国信息协会教育分会人工智能教育专家委员会主任、教育部全国普通高校毕业生就业创业指导委员会委员等。

近年来,面对日益突出的大数据发展难题,我们也正在尝试使用此前类似的办法应对这些挑战。为了解决大数据技术资料缺乏和交流不够通透的问题,我于2013年创办了中国大数据网站(thebigdata.cn)(目前更名为“大数据世界”),投入了大量的人力进行日常维护。

为了解决大数据师资匮乏的问题,我们面向全国院校陆续举办多期大数据师资培训班,致力于解决“缺人”的问题。至今,我们已举办上百场线上线下培训,并入选“教育部第四批职业教育培训评价组织”,被教育部学校规划建设发展中心认定为“大数据与人工智能智慧学习工场”,被工业和信息化部教育与考试中心授权为“工业和信息化人才培养工程培训基地”。

此外,我们开发的云计算、大数据、人工智能实验实训平台被多个赛事选为竞赛平台,也为越来越多的高校教学科研带去便捷。其中,大数据实验平台致力于帮助解决大数据实验“缺机器”与“缺原材料”的问题。2016年,我带领“云创大数据”的研发人员应用Docker容器技术,成功开发了BDRack大数据实验一体机,它打破了虚拟化技术的性能瓶颈,可虚拟出Hadoop集群、Spark集群、Storm集群等,自带实验所需数据,并配备了详细的实验手册、PPT和实验过程视频,可开展大数据管理、大数据挖掘等各类实验,并可进行精确营销、信用分析等多种实战演练。

在大数据教学中,本科院校的实践教学应更具系统性,偏向新技术应用,且对工程实践能力要求更高;而高职高专院校更偏向技术性和技能训练,理论以够用为主,学生将主要从事数据清洗和运维方面的工作。基于此,我们联合多所院校的专家有针对性地准备了“高级大数据人才培养丛书”和“大数据应用人才培养丛书”两套大数据教材,帮助解决“机制”欠缺的问题。

此外,与教材配套的PPT和其他资料也将继续在“大数据世界”和“云计算世界”等网站免费提供。同时,智能硬件大数据免费托管平台——万物云(wanwuyun.com)和环境大数据开放平台——环境云(envicloud.cn),使资源与数据唾手可得,让大数据学习变得更加轻松。

在此,特别感谢我的硕士生导师谢希仁教授和博士生导师李三立院士。谢希仁教授所著的《计算机网络》已经更新到第8版,与时俱进且日臻完善,时时提醒学生要以这样的标准来写书。李三立院士是留苏博士,为我国计算机事业做出了杰出贡献,曾任国家攀登计划项目首席科学家。他严谨治学,带出了一大批杰出的学生。

本丛书是集体智慧的结晶,在此谨向付出辛勤劳动的各位作者致敬!书中难免会有不当之处,请读者不吝赐教。

我的邮箱:gloud@126.com。

微信公众号:刘鹏看未来(lpoutlook)。

刘鹏

2023年5月