1.5 大数据和数据智能的技术与服务
本节介绍大数据和数据智能相关的技术与服务。
1.5.1 大数据的定义
从图1-5中可以看到全球数据量的快速增加。
从图1-5中可以直观地看到2002年是模拟存储和数字存储的分水岭,2002年之前通过唱片、书籍、磁带来存储信息,随着现实需求及技术的相互促进,2002年之后,大量的光盘、磁盘等出现在市场上,这些设备通过数字化的形式来保存数据,在容量上按照指数级上升,而价格也在指数级下降。1995年时1TB容量的机械硬盘的价格是100万美元,到了2005年只要80美元,世界上最大的图书馆Library of Congress保存有约3407万本书籍,数字化后的容量是10TB,也就是只要800美元即可。人类整个手写作品的容量是50PB,也就是50 000TB,按照2005年的成本是400万美元。
在一份2001年的研究与相关的演讲中,麦塔集团(META Group,现为Gartner公司)分析员道格·莱尼(Doug Laney)指出数据增长的挑战和机遇有三个特点:量(Volume,数据大小)、速度(Velocity,数据输入输出的速度)与多变(Variety,多样性),合称“3V”或“3Vs”。Gartner公司与现在大部分大数据产业中的公司,都继续使用3V来描述大数据。Gartner公司于2012年修改大数据的定义为“大数据是大量、高速及/或多变的信息资产,它需要新型的处理方式去促成更强的决策能力、洞察力与最优化处理”。另外,有机构在3V之外定义第4个V:真实性(Veracity)为第四特点。
随着发展,“大数据”这个术语趋向于对预测性分析、用户行为分析或者某些从数据中抽取有价值的先进数据分析方法的使用,而较少涉及特定大小的数据集。
图1-5 全球数据量的增加
2016年又有一个定义指出:“大数据代表了具有如此高的体量、速度和多样性的信息资产,需要特定的技术和分析方法将其转化为价值”。除了4V描述(体量、多样性、速度、真实性)外,又进一步扩展到大数据的其他特征:
· 机器学习(Machine Learning):大数据通常不询问为什么,而是通过数据分析和挖掘进行模式探测。
· 数字足迹(Digital Footprint):人们在各种数字环境中交流时的数据交互产生的低成本产物。
2018年又有一个大数据的阐述:“大数据是需要并行计算工具处理的数据,这代表了一个在计算机科学中通过并行编程理论被采用的独特而清晰定义的变化。”
1.5.2 云计算与大数据的关系
云计算是基础,大数据是上层建筑。通俗的比喻就是云计算和大数据的关系就像是水和鱼的关系。
如果把大数据想象成鱼,那么云计算则像是鱼生活的必要的水环境。因为归根结底,云计算是为了信息服务的,云计算的唯一目标就是让信息的交换、存储和处理能力更强大。云计算为信息的交换提供了更大的带宽和容错服务,为信息的存储提供了近乎无限的容纳能力,为信息的处理提供了强大的CPU算力资源和各种方便的分析工具。而数据,特别是大数据,则是信息的载体,是信息在客观世界的表现形式。大数据是海量信息管理和处置的资产集合,因此需要一个性能、安全性、稳定性都超越以往的计算框架来支持。
表1-1是云计算与大数据的对比。从技术层面看,云计算是不同服务的集合,通过网络向最终用户提供服务,从底层的网络、存储、服务器,到各种企业应用,而大数据则采用云计算技术。云计算与大数据之间的关键区别在于云计算用于处理巨大的存储容量,以提供各种灵活的技术来处理大量数据,而大数据是用云计算平台处理的信息。
表1-1 云计算与大数据的对比
云计算与大数据虽然彼此侧重不同,但却是紧密结合,是数据存储和处理的完美组合。云计算一直是大数据出现的先驱和促进者,如果大数据是内容,那么云计算就是基础设施。
1.5.3 数据智能
如果数据只是“大”,并没有太大意义,关键是如何最佳地挖掘高价值的数据并使用这些数据,使这些数据成为“智能数据”。
大数据的概念提出来之后,首要解决的问题是基础的技术及设施问题,例如如何建设海量数据的采集、存储,开发出处理这些数据的方法和系统等。在解决了这些基础的技术及设施的建设问题之后,必定需要考虑如何把这些技术和设施充分利用起来,去服务上层的应用服务,满足用户各方面的需要。
纵观大数据行业的发展历程,从2013年至今,经历了大数据基础设施建设阶段,利用数据分析与展示等对业务进行的监测阶段,再到利用大数据和业务场景进行结合的优化阶段,后面必定会发展到满足快速的业务及其创新的阶段。
这个发展过程如果与人类智慧的形成过程作比较,会发现两者非常相似。
(1)数据→信息:数据(data)经过处理和加工,变成了信息(information)。
(2)信息→知识:信息之间产生了联系,形成了知识(knowledge)。
(3)知识→洞察:通过现有知识,发现一些知识之间的新关系,于是形成了洞察(insight)。
(4)洞察→智慧:把一系列洞察串联起来,形成了智慧(intelligence)。
(5)智慧向外传播,形成了影响力(influence)。
在数据世界中,最终的目的也是通过数据来形成智慧,从而通过各种产品和服务,来形成影响力。
下面总结数据智能的核心,也就是数据智能化企业需要具备的特征:
(1)以大数据作为前提,数据作为生产资料和资产。
(2)采用开放的技术体系,广泛采用人工智能、机器学习、可视化等技术。
(3)支撑创新迭代、快速满足个性化的不确定性需求。
(4)提供智能化的服务和产品。
云计算、大数据和数据智能与业务的关系如图1-6所示。
图1-6 云计算、大数据、数据智能与业务的关系