1.2 大数据定义
大数据技术是伴随着近20年信息技术的高速发展而出现的。究其原因,其一是互联网、物联网和传感器技术的飞速发展,正在以前所未有的速度源源不断地产生着海量数据,原有的各种信息系统的稳定发展所累积的数据也起到了推波助澜的作用;其二是互联网和移动业务系统催生了如海量信息联机检索等新型应用,这需要有别于传统技术的支持;其三是信息技术的发展使其能够对海量数据进行联机分析,对纷乱的历史数据进行脱机分析处理,以发现其中蕴含的价值。
如今,大数据技术的发展已势不可挡。那么,到底什么是大数据呢?与大多数新兴技术类似,在其发展初期,尚无一个权威的“大数据”定义。由此可见,大数据技术还在不断发展和成熟的过程中,各方尚未达成一致的观点。全球闻名的维基百科对大数据的定义是,所涉及的数据量规模巨大到无法通过惯用的人工和技术,在合理的时间内完成截取、管理、处理,并整理成为人类能够解读的信息。这样的解释忽视了大数据中一个极为重要的因素——大数据技术。
鉴于此,本书给出大数据的一个描述性定义。大数据是指一个海量、异构、快速增长中的数据集,已经难以用原有的技术去存储和处理这些数据,必须研发新的技术来应对这样的应用场景,这些新的技术就是大数据技术。因此,大数据通常是“大数据集+大数据技术”。
大数据技术描述了一种新的技术和构架,用集群、并行处理的方式存储、处理大规模数据,借助批处理、流式处理、图处理等多种数据处理模型,从大规模的数据中提取价值。
另外,经常有人无法厘清云计算、大数据、人工智能之间的关系。简单地说,物联网和互联网产生大量的数据,这些数据需要存储和处理,这就需要有云计算了。云计算的作用就是对海量数据进行集中存储和处理。海量数据上传到云计算平台后,需要对其进行分析和挖掘,这就是大数据研究的内容。大数据是基于海量数据进行分析从而发现一些隐藏的规律、现象、原理等。而人工智能是建立在大数据基础上的,人工智能不仅要分析数据,还要根据分析的结果做出行动,如无人驾驶、自动医学诊断等。云计算、大数据、人工智能之间的关系如图1-1所示。
图1-1 云计算、大数据、人工智能之间的关系