大数据挖掘技术与应用
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.5 大数据的特征

大数据处理与以往的数据处理有很多明显的区别。

从数据收集方式看,传统数据的收集通常带有明确的目的,因此数据的价值高、质量好;在大数据时代,数据收集通常没有明确的任务,待数据收集完成后,再通过数据分析得出结论,即“先有数据,后找其价值”。

从数据本身看,大数据具有以往数据所没有的一些特征。

关于大数据的特征,业内从不同的视角提出了很多特征。2001年,道格·莱尼(Doug Laney)提出了大数据的3V模型,包括数量(Volume)、速度(Velocity)和种类(Variety)。后来,在3V模型的基础上又补充了一些特征,其中得到公认的有价值(Value)和真实性(Veracity),由此形成了大数据的5V模型,如图1-2所示。基于大数据5V模型的大数据特征如图1-3所示。

图1-2 大数据的5V模型

图1-3 基于大数据5V模型的大数据特征

大数据量是指超大的数据量,如此巨大的数据量已经超出了传统数据处理的能力,由此引发各种大数据处理技术;高速度是指数据产生速度如此之快,以致传统人工参与处理的方式已不适用;多样化是指数据种类繁多,使擅长处理结构化数据的关系型数据库显得力不从心;价值密度低是指从大数据中发掘其中的价值如同沙里淘金,弥足珍贵;数据质量差是指大数据的质量通常比想象的要糟糕很多,必须进行大量的数据预处理。

除大数据量这个特征外,大数据并不一定同时具备其他特征。在采用新的数据处理方法后,可以发现大数据中深藏的规律、知识或价值,但这需要数据量积累到足够大时才能实现。