上QQ阅读APP看书,第一时间看更新
3.4 数据挖掘
数据挖掘是揭示数据中存在的未知关系的过程,我们需要用大数据的散点图来发现其中隐含的关系。大数据作为信息社会的一个主要部分,大量数据点或信息已经让散点图不堪重负。奇怪的是,使用了较多信息的散点图反而未给我们带来更多信息。对于一个量化目标变量来说,散点图通常会变成由密集的点形成的云团,这种情况与特定样本的变化有关,笼统地说就是模糊了数据间的关系。对于定性的目标变量而言,会存在一个离散的云团,使得这种关系变得模糊不清。无论哪种情况,从大数据散点图中去除云团,都可以揭示数据背后的关系。在介绍了两个展示由更多数据做成的散点图不能提供有价值信息的例子之后,我介绍绘制平滑散点图的方法,它可以去除云团,揭示大数据中的关系。