Spark机器学习进阶实战
上QQ阅读APP看书,第一时间看更新

第2章 数据分析流程和方法

夫物芸芸,各复归其根。

——《道德经》第十六章

万物纷纷芸芸,各自返回它的本根。深入本根才能更好地认识自然规律,符合自然的“道”。

数据驱动时代,无论你的工作内容是什么,掌握一定的数据分析能力,都可以帮你更好地认识世界,更好地提升工作效率。数据分析除了包含传统意义上的统计分析之外,也包含寻找有效特征、进行机器学习建模的过程,以及探索数据价值、找寻数据本根的过程。

在本章中,我们首先对数据分析的概念进行概述,随后围绕数据讲解数据分析的流程,包括业务调研、明确目标、数据准备、特征处理、模型训练与评估、输出结论等,在此基础上介绍数据分析的基本方法,最后使用Spark开发环境构建简单的数据分析示例应用。