统计挖掘与机器学习:大数据预测建模和分析技术(原书第3版)
上QQ阅读APP看书,第一时间看更新

1.6.1 数据规模特征

数据规模有三个显著特征:状态、位置和总体。状态指的是数据是否已经准备好可以用于分析。如果在进行可靠分析之前,数据需要用最少的时间和成本去整理,就被称为处于良好状态。反之,如果需要大量时间和成本去整理,数据就是处于糟糕状态。小数据通常是干净的,因而处于良好状态。

大数据是当今数据化环境的产物,数据流以前所未有的速度和数量从各个方向持续生成。之所以说这些数据是“脏的”,主要因为它们来自多个来源。数据汇总流程非常耗时,因为必须考虑多个来源的数据能否合在一起。由于这个过程需要多次调整,所以不同渠道的记录之间的匹配逻辑起初会比较模糊,之后才微调到合理的水平。由此产生的数据总是由无法解释的、看似随机的、无意义的值组成,因此大数据往往处于糟糕状态。

位置指的是数据放在哪里。与整齐排列在方方正正的纸上的小数据不同,大数据存放在包含了多维表的数据库中。这些数据表之间的链接可以是分层的(根据排序或层级),也可以是顺序的(根据时间或事件)。通过整合多个数据来源,其中每个来源都包含许多行与列,可以生成更多的行与列,这清晰地体现了大数据之大。

总体指的是一群个体,它们具有同样的特征,与所研究的问题有关。小数据通常代表已知总体的一个随机样本,这个样本在短期内一般不会出现变化。这些收集起来的数据是用来回答某个问题的,通过某个解决问题的方法可以从中直接获得答案。与此相反,大数据总是一些来自未知总体的多个非随机样本,而且短时间内会发生改变。从这个意义来说,大数据本质上是“次级”的。起初收集数据的目的是明确的,而为与这个初始目的不同的其他目的收集的数据就是次级数据。大数据可以从hydra的营销信息中获得,用于任何事后问题,可能没有一个简单的解决方案。

有趣的是,图基从未专门谈论过大数据。但是,他确实预言过,无论从时间上还是从金额上,计算成本都会变得更便宜,这表明他知道大数据时代正在到来。显然,个人计算机确实足以应付这样的成本。