前言
近年来,随着各行各业数据资源的极大丰富及大数据技术的不断发展,大数据相关产业迎来了空前的发展机遇。大数据相关技术在各领域得到了广泛的应用,例如,金融大数据、商业大数据、网络舆情大数据及医疗与健康大数据等。对大数据人才的市场需求呈现井喷式增长。
各类大数据相关学科竞赛的举办,有效促进了高等院校大数据相关专业教学模式的探索性改良,推进相关专业课程体系、教学内容和教学方法等教学资源的质量提升和丰富完善,对于高校大数据相关专业建设的发展起到很好的促进作用。通过大数据学科竞赛,能够激发学生的自主学习热情,培养学生的团队意识和创新意识,提高了学生在平台搭建、数据采集、数据分析与挖掘等方面的实践能力,提高学生的专业技能,并践行了“理实一体化”“做学教一体化”的教学模式。
本书是作者在长期从事大数据分析技术、数据挖掘教学和科学研究成果的基础上,以大学生大数据技能竞赛、“智警杯”公安系统大数据技能竞赛为背景,以“大数据分析与应用职业技能等级标准”为参考编写而成。全书共5章,系统介绍了Linux操作系统、数据库技术、大数据平台技术、数据采集与分析、数据挖掘与数据可视化等内容。
第1章为Linux操作系统,主要介绍主机名、Hosts映射、防火墙配置等Linux常用命令,同时对时间同步、定时任务、远程访问等服务进行介绍。
第2章为数据库技术,主要介绍了数据库的安装和配置、数据库操作管理、数据表操作管理、视图、权限管理、备份与还原、非关系型数据库NoSQL等。
第3章为大数据平台技术,主要介绍了Hadoop分布式大数据框架、Hive数据仓库、HBase数据库、Spark技术框架、ZooKeeper协调框架、Flume数据收集、Sqoop数据传输、Azkaban任务调度工具等大数据组件架构的应用,还介绍了故障排查、性能调优等平台运维管理方案。
第4章为数据采集与分析,主要介绍了HTTP原理、网页组成、网络请求、XPath解析、数据存储等网络信息获取技术,同时对数据进行了统计分析方法介绍,包括描述性分析、探索性分析、缺失值分析等方法。
第5章为数据挖掘与数据可视化,介绍通过算法提取挖掘数据中的有用信息,主要内容包括线性回归、逻辑回归、决策树等算法,介绍如何对数据进行可视化呈现和数据分析报告的撰写。
本书详细介绍了大数据及数据分析的技术构成,理论和实践紧密结合,可以帮助读者梳理思路,对比不同技术的优势并做出选择,从而更加符合产业发展的需求。
本书结合历年竞赛真题知识的解析,可作为参加大数据类竞赛的辅导用书,同时配有全套教学课件、数据集、视频、环境等实训资源,亦可作为高等院校大数据相关专业、相关课程的实训教材,或是培训机构的培训教材。
本书主编为李辉、张莹、卢兴民,副主编为胡健、张福华、蒋红兰,参编人员为王新猛、李凤莲、王彦平、李超、杨海迎。在本书编写过程中,特别是真题梳理验证过程中,北京红亚华宇科技有限公司提供了资料协助和平台支持,在此表示衷心感谢。
由于编者水平有限,加之大数据技术的发展日新月异,书中难免会有疏漏和不妥之处,敬请广大读者批评指正。
编者