大数据处理之道
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

0.2 数据就是“金库”

从大数据的类型来看,大致可分为三类。

• 传统企业数据:包括CRM Systems的消费者数据、传统的ERP数据、库存数据及账目数据等。

• 机器和传感器数据:包括呼叫记录、智能仪表、工业设备传感器、设备日志、交易数据等。越来越多的机器配备了连续测量和报告运行情况的装置。几年前,跟踪遥测发动机运行仅限于价值数百万美元的航天飞机。现在,汽车生产商在车辆中配置了监视器,连续提供车辆机械系统整体运行情况。一旦数据可得,公司将会从中渔利。这些机器传感数据都属于大数据的范畴。

• 社交数据:包括用户行为记录、反馈数据等。如Twitter、Facebook这样的社交媒体平台。计算机产生的数据可能包含着关于因特网和其他使用者行动与行为的有趣信息,从而提供了对他们的愿望和需求潜在的有用认知。还有人们通过电子邮件、短信、微博等产生的文本信息。

这三种数据都价值连城,甚至有说法称,谁掌握了数据资源,谁就有了“金库”。IBM、Amazon、Google、eBay、Twitter和Facebook等都试图使用这三类信息认识消费者行为,预测特定需求和整体趋势。当然,要将数据变成真正的“金库”,需要一个过程,一个分析的过程,一个总结的过程,一个预测的过程。最终,数据能帮助人类提升预测能力。通过大数据的处理工具,提取精华,总结规律,预测行为。Science杂志刊登过一篇文章,指出虽然人们的出行模式有很大不同,但我们大多数人是可以预测的。这意味着我们能够根据个体之前的行为轨迹预测其未来行踪的可能性,即93%的人类行为可预测。93%!可怕吗?也就是说“大数据”能预测出你93%会去某个地方做某一件事情。

对未来的预测功能是目前业界对大数据最看重的价值。基于之前记录下来的各种数据的深入研究,发现其中的规律特征,从而进行系统优化,甚至升级。这种基于预测的价值实现对系统(包括个人、企业机构、各种电子性工具)的长远运行来说价值重大,决定了一个系统是否具有长期的成长性和演变能力。而大数据定理告诉我们,在试验不变的条件下,重复试验多次,随机事件的频率近似于它的概率。“有规律的随机事件”在大量重复出现的条件下,往往呈现几乎必然的统计特性。举个例子,我们向上抛一枚硬币,硬币落下后哪一面朝上本来是偶然的,但当我们上抛硬币的次数足够多时,我们就会发现,硬币每一面向上的次数约占总次数的1/2,偶然中包含着某种必然。所以有一种大胆的提法:在某些场合下,大数据让“偶然”变成“必然”,大数据让随机不再“随机”。

随着计算机处理能力的日益强大,获得的数据量越大,挖掘到的价值就越多。从目前大数据的格式和内容来看,产生的数据内容中有90%是非结构化数据,如短信和微博生成的信息,以及视频和音频,情况将变得越来越复杂(至今最大的数据是音频、视频和符号数据,这些数据结构松散、数量巨大,挖掘难度很大)。无论身处哪个行业,围绕大数据及管理这些信息的挑战无处不在。

据麦肯锡全球研究院测算,大数据将给美国医疗服务业带来3000亿美元的价值,使美国零售业净利润增长达到60%,使制造业产品开发、组装成本下降50%。而大数据所带来的新的信息技术应用需求将推动整个信息技术产业的创新发展。