大数据财务分析(第2版·微课版)
上QQ阅读APP看书,第一时间看更新

一、大数据的定义和特征

麦肯锡全球研究所认为:大数据是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件能力范围的数据集合,具有大量(Volume)、高速(Velocity)、多样(Variety)和价值(Value)密度低四大特征。大数据的这四大特征也称作“4V”特征,如图1-1所示。

图1-1 大数据的“4V”特征

(一)大量

所谓大量,指的是数据具有海量规模。如图1-2所示,日常生活中,我们所有的行为都随时随地在产生数据,例如扫码消费产生的数据、浏览网页和搜索信息产生的数据、在微博和朋友圈等社交平台发表动态产生的数据,或者在医院就诊产生的数据等。全球每年大约产生5万亿GB的数据。

图1-2 大数据的特征——“大量”

(二)高速

所谓高速,是指大数据产生和处理的速度快。例如,在淘宝或京东等购物网站上输入要购买的商品名称,一秒钟之内就会返回所有符合条件的结果。大数据的处理速度随着分布式技术的发展越来越快。

(三)多样

所谓多样,指的是数据种类繁多,来源广泛。如图1-3所示,生活中常见的图片、视频、声音、文件等都是数据。概括而言,这些数据可以划分成结构化数据、半结构化数据和非结构化数据等不同类型,后面介绍数据类型时将详细说明。

图1-3 大数据的特征——“多样”

(四)价值密度低

所谓价值密度低,是指大数据虽然规模庞大,但是有价值的信息所占比例较小。大数据的重点不在于其数据量的增长,而是在信息爆炸时代对数据价值的再挖掘,如何挖掘出大数据的有效信息,才是至关重要的。例如,超市内的监控设备每时每刻都在记录数据,但真正有价值的数据可能就几秒钟。