1.4.3 大数据
大数据(Big Data)的概念最初源于美国,是由思科、威睿、甲骨文、IBM等公司共同倡议发展起来的。2011年,麦肯锡公司在题为“海量数据,创新、竞争和提高生成率的下一个新领域”的研究报告中指出,数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产因素;而人们对于海量数据的运用将预示着新一波生产率增长和消费者盈余浪潮的到来。大数据成为继云计算之后的全球新热点[25]。
1.大数据的定义和特征
对于大数据的定义,由于出发点的不同,达成共识非常困难。麦肯锡公司的研究报告中对大数据的定义:超过典型数据库软件工具捕获、存储、管理和分析数据能力的数据集。这种观点从比较的观点出发说明了什么样的数据集才能被认为是大数据。IBM 提出了大数据“5V”特点,分别是Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)[26]。
2.大数据价值链
大数据不是凭空出现的,其应用也不是断章取义的结果,其生命周期的不同阶段实际上是在大数据价值链中完成的。大数据价值链依次由4个阶段构成:数据生成、数据获取、数据存储和数据分析[27]。
数据生成关心的是数据如何产生,此时大数据意味着从多样的纵向或分布式数据源(传感器、视频和其他数字源)产生的大量的、多样的和复杂的数据集。通常,这些数据集和领域相关的不同级别的价值联系在一起。
数据获取是获取信息的过程,可分为数据采集、数据传输和数据预处理。数据采集是指从特定数据生产环境获得原始数据的专用数据采集技术。数据采集完成后,需要高速的数据传输机制将数据传输到合适的存储系统,供不同类型的分析应用使用。数据集可能存在一些无意义的数据,将增加数据存储空间并影响后续的数据分析。因此,必须对数据进行预处理,以实现数据的高效存储和挖掘。
数据存储解决的是大规模数据的持久存储和管理。数据存储系统可以分为两部分:硬件基础设施和数据管理软件。硬件基础设施由共享的信息和通信技术(Information and Communication Technology,ICT)资源池组成,资源池根据不同应用的即时需求,以弹性的方式组织而成。硬件基础设施应能够向上和向外扩展,并能进行动态重配置以适应不同类型的应用环境。数据管理软件部署在硬件基础设施之上用于维护大规模数据集。此外,为了分析存储的数据及数据交互,存储系统应提供功能接口、快速查询功能和其他编程模型。
数据分析利用分析方法或工具对数据进行检查、变换和建模并从中提取价值。许多应用领域利用领域相关的数据分析方法获得预期的结果。尽管不同的领域具有不同的需求和数据特性,它们可以使用一些相似的底层技术。当前的数据分析技术的研究可以分为6个重要方向:结构化数据分析、文本数据分析、多媒体数据分析、Web 数据分析、网络数据分析和移动数据分析。