第一节 大数据的介说
一、大数据的沿革与发展
(一)大数据的沿革
对于今天社会来说,“大数据”已不再是陌生的词汇,甚至可以称为时下最流行的词汇之一。各行各业似乎都能看到大数据的身影,从较早的互联网、电子商务等领域到现在的政务系统、医疗系统等各行业都在强调大数据的运用,甚至连学术研究都要开始倡导大数据方法。“大数据”一词从出现到普及不过短短几年光景,那么,大数据究竟从何而来呢?
首先,大数据的发展得益于海量数据的累积。大数据早期的形态可以追溯至20世纪末、21世纪初互联网的普及时期,这一时期为大数据的发展积累了丰厚的数据资源。随着互联网、计算机技术的发展,人们的工作、生活等逐渐延伸至虚拟空间。尤其是随着Web 2.0时代的到来,社交网络、电子商务平台、自媒体以及智能手机的兴起,人们开始在网络上留下大量数据痕迹。在这一阶段,数据呈现出海量爆发式增长。纵观我们的日常生活,手机记录了我们的地理位置数据、信用卡记录下我们的消费数据、电子病历记录下我们的健康数据,等等。几乎我们工作、生活中一举一动都被数据记录下来。这些海量的原始数据构成了大数据的雏形,为大数据的发展提供了原始材料。
其次,大数据的发展还得益于数据存储和数据管理技术的革新。在这方面较早试水的主要是美国的一些互联网企业,如谷歌、IBM、亚马孙等公司。促进大数据产生的技术有以下几方面:①数据存储技术。计算机领域有一个“摩尔定律”,强调集成电路容量的更新速度将呈指数式增长。近些年来,计算机等电子设备的存储容量迅速提升,尤其是云存储技术开始兴起,人们利用网络“云”资源对数据进行存储、计算,大大提高了数据的存储容量和存储效率。②数据处理技术。面对数量巨大的非结构化数据,分布式计算技术应运而生,能够对大规模非结构化数据进行分布处理,提高数据处理的速度和效率。③数据分析技术。数据分析技术的核心是数据挖掘,包括A/B测试、聚类分析、关联规则挖掘、自然语言处理、神经网络等技术。由此可见,数据存储和处理技术的提高大大推进了大数据的发展。
最后,大数据的发展还得益于人类认知能力的进步。抛去技术层面,从数据本身的角度来看,大数据的发展来源于人类测量、记录和分析世界的渴望。早在19世纪中期,一位名为莫里(Matthew Fontaine Maury)的美国航海家,通过人工观测方法记录了大量的大西洋航海数据,为当时的航海提供了有利的指导,减少了风险的发生、提高了航海效率。这一事例中虽然没有任何的现代信息技术进行辅助,却是大数据思维的应用:将现象转化为数据形式进行记录和观察,并作为决策的依据。大数据本质上是一种“数”,有学者认为大数据是人类历史上的第二次数据革命;还有学者认为大数据带来了人类历史上第三次工业革命,数据分析技术如同蒸汽技术、电力技术一样,将推动人类生产力的进一步发展。由此可见,大数据产生的最根本的动力还是来源于人类认知能力的进步。
(二)大数据的发展
国外媒体说2013年是世界大数据的元年,美国、欧盟、日本等国家和地区的大数据发展都兴起于2013年前后。早在奥巴马政府之前,美国政府就已经开始用大数据技术进行行政管理;2009年,美国建立了政府大数据网站(Data.gov),用以公布政府各部门的数据,截至2016年9月已经有186770个数据库,涵盖农业、商业、消费、天气等14个领域;2012年奥巴马政府将大数据上升为国家战略高度。欧盟及其成员国也明确提出大数据发展战略,强调数据的开放和共享,强调将数据的价值转化为生产动力。日本、印度、韩国、新加坡等国家也都将大数据纳入了国家发展计划。日本于2010年7月设立了政府大数据网站,公开政府数据,甚至还出现了专门的数据市场、数据经销商,将数据作为商品来进行生产和销售;2012年日本政府将发展大数据作为国家战略。印度近两年也开始重视大数据,并提出建设大数据智慧城市的计划,韩国和新加坡都提出要建立“智慧国家”的计划。
图2-1 美国政府大数据平台
图2-2 日本政府大数据平台
相比于上述国家,我国大数据的发展步伐要略慢一些。在我国的大数据发展进程中,实行的是地方战略先行的发展路径。近几年各省市纷纷推出地方大数据发展战略,如广东省在2012年启动大数据建设战略,推出统一的信息平台,建设智慧城市;上海市在2013年启动大数据战略,规划了上海市从理论到技术,从产品到应用的大数据计划。此外,陕西省也推出大数据产业发展战略,贵州省成立了大数据战略重点实验室,北京市将云计算和网格化技术运用至社会管理中。据悉,我国已经有超过两百个城市提出建设大数据智慧城市的计划。
如果说国外的大数据发展元年是2013年,那么我国的大数据发展元年则应该是2015年,这一年三件里程碑式的事件推动了大数据发展。第一,全国首家大数据交易所成立。2015年4月贵阳大数据交易所成立,成为全国首个大数据交易所。此后又出现了东湖交易所、长江交易所等专门的数据交易市场,以及新型数据交易的电商平台。我国的“大数据市场”已经初步形成。第二,国务院颁布《促进大数据发展行动纲要》。2015年8月31日国务院正式发布《促进大数据发展行动纲要》,强调了大数据的战略地位,提出政府数据资料开放和共享的计划,加强数据基础设施建设,推进大数据在工业、农业、服务业等各行各领域的建设应用。同时建立大数据安全保障体系,制定相关法律法规及大数据标准规范体系,等等。第三,党的十八届五中全会正式提出国家大数据战略。在2015年10月26日至29日的中国共产党第十八届中央委员会第五次全体会议上,提出并通过了“国家大数据战略”,标志着大数据正式成为国家战略。在大数据战略的指导下,我国在未来几年内必将会围绕大数据进行相关的技术、产业、制度及法律法规建设,大数据的应用也会逐渐普及到各个领域。除了上述的三大里程碑事件外,近几年来中央层面出台的一系列文件也大大推动了大数据的发展。(详情参见表2-1)
表2-1 中国大数据发展的重要事件
二、大数据的概念与特征
(一)大数据的概念
尽管各行各业都在强调大数据的运用,但是大部分人可能并不真正理解到底什么是大数据,不少人认为大数据仅仅是海量的数据集合。目前,专业领域内对于大数据的概念也并没有统一的认识,不过对大数据概念的界定肯定不仅仅局限于“数据”本身。
目前,学界对于大数据的概念主要有以下三种认识:第一,从大数据“大”的特征进行界定,强调大数据是海量数据的集合;第二,对大数据进行综合、全面的界定,大数据不仅包括数据本身,还包括与大数据相关的技术、人才、制度等;第三,从大数据的价值出发,强调大数据的核心价值在于背后所蕴藏的规律,这一观点以“大数据之父”舍恩伯格为代表。大数据本身就是个开放的理念,上述对大数据概念的不同界定,反映了学者们对大数据认识的多元化,他们从个人的知识结构和研究旨趣出发,对大数据有着不同角度的解读。
本书认为,大数据包括海量数据集、数据分析技术以及大数据分析结果这三层含义。首先,大数据是海量数据的集合,它们构成了大数据分析的基础,并且这些数据具有量大、结构多样特征。其次,大数据还是一种以数据挖掘为核心的数据分析技术,只有通过数据分析技术,才能够发掘出数据背后的价值。最后,大数据还强调经过分析、处理后所获取的数据结果,它们往往能够反映出数据背后的规律,是大数据的价值和精髓所在。总而言之,本书对大数据的理解基于广义的视角,海量数据集、数据分析技术、数据分析结果都属于大数据的范畴。另外,针对部分人对于大数据的误解,在理解大数据时还有以下三个要点。
(1)大数据的基础在于“数据化”。在大数据的角度看来,任何事物、现象、行为都是由数据构成的,而通过数据的描述又可以还原出任何现象、行为及其背后的规律,这一“数据化”原理便是大数据运用的基础。在当代,随着传感技术的发展,人类数据化的范围和速度大大提升。从“人”的数据到“物”的数据,从身份数据到行动轨迹,甚至连睡眠、情绪都可以数据化,可以说“万物皆可数据化”“一切皆可量化”。
(2)大数据的量大是相对的。大数据最直观的特征莫过于数据量之“大”了,那么数据量需要达到何种程度才可谓之于“大数据”呢,是不是一定要达到PB、ZB甚至只是EB的级别呢?其实,大数据之“大”是相对于小数据而言的。在传统的小数据时代,由于数据采集技术条件所限,人们只能采取抽样调查法,选取一定的样本进行对象的分析。在大数据时代,收集所有的数据不再是不可能的事情,完全可以通过相关技术收集到与某一事物相关的所有数据,达到“样本=全体”的数量级。另外,大数据之“大”也是有限度的。数据之大是相对于分析对象而言,只要相对于分析对象是全体数据即可;况且,当数据超过一定量时,数据的继续增加并不会对结果有多少影响。因此当样本的数量大到足够得出结论时,便可以认为是所谓的“大数据”。
(3)大数据的核心在于数据背后的价值。大数据本身并不意味着大价值,如果不对数据进行分析、挖掘,大数据只是死气沉沉的“数据坟墓”。唯有灵活运用数据分析、处理技术,方能发现大数据背后的规律、特征,真正发挥大数据的价值。
(二)大数据的特征
提到大数据的特征,学界的通说是大数据“3V”特征。这里的“V”是英文单词的缩写,3V指的是Volume(大容量)、Variety(多样性)和Velocity(数据产生频率、更新频率快)。大数据的“3V”特征说法最早来源是2001年麦塔集团(META Group)分析员道格•莱尼(Doug Laney)的一份演讲报告,报告中指出未来数据管理将会面临这三个方面的挑战。后来“3V”特征说就成了大数据特征的通说,并一直沿用至今。此后,很多学者又在“3V”特征上发展出其他特征,如Veracity(大数据的准确性),Variability(大数据的异变性)、Value(大数据的价值),等等。
第一,容量大(Volume)。人类的数据量已经从传统的KB、MB增长到TB、PB乃至ZB,随着数据化的趋势及互联网的发展,未来数据量还会继续增长。据相关数据统计,每一天互联网上产生的数据可以刻满1亿多张DVD,发出近3000亿封邮件,200万个帖子,上传2.5亿张图片。预计2020年全球的数据量将会达到35ZB,这意味着在最近两年产生的数据量相当于人类之前所有数据量的总和。
第二,多样性(Variety)。多样性主要是指大数据所包含数据类型的繁多。大部分的大数据都是以非结构化数据的形式存在,如日志文件、点击流、富文本文档、网页、多媒体等。它们处理起来相对困难,所需要的数据分析技术也更加复杂。
第三,速度快(Velocity)。在以前,都是对数据进行事后收集、分析,具有一定的滞后性。然而在大数据时代,数据产生、更新的速度越来越快,各行各业都强调对数据进行实时的流处理,以保证数据的新鲜度。
上述的“3V”特征是从数据本身的属性出发。当大部分学者都在关注大数据本身的属性特征时,也有个别先驱者从更深层次的思维、方法论角度去探索大数据的特征。长久以来,我们对世界的认知都是遵循“小数据”逻辑思维,依托一个独立的数据点产生的直觉来分析问题。相比于小数据时代的思维方法,大数据在思维方面的特征主要体现在以下几个方面。
第一,全数据。在小数据时代,由于人类获取信息的能力有限,一直采用抽样调查的方法,希望通过科学的抽样方法来获取尽可能准确的统计结果。但即使选取样本的方法再科学,也无法获取全部的数据,而一些重要的信息很可能就在这些“非样本”数据中。然而,抽样法只是小数据时代不得已而采取的办法,在大数据时代我们完全有条件去获得某个研究对象的所有数据,不必再拘泥于技术条件所限进行数据抽样分析,这样便不会错过任何一个数据中所隐藏的信息。
第二,混杂性。在小数据时代,由于抽样的数据量有限,因而对每个数据的质量要求都很高。然而,在大数据时代,由于数据量的巨大、数据结构的混杂,很难保证每一数据都精准无误;并且数据量的巨大往往可以忽略、抵消这些误差。此外,物理学的经验告诉我们,误差从来都是存在的,数据错误不是大数据才有的特性。总之,大数据更强调数据的完整性和混杂性,通过纷繁复杂、多元化的数据去认知世界。
第三,相关性。小数据时代人们遵循的是因果逻辑思维。我们预先确立了研究对象,之后根据主题去搜集相关数据,这些数据往往带有一定的“假想性”,得出的结果有较强的因果关系。因果关系强调不仅要知道是什么,还要知道为什么。而在大数据方法中,我们则可以不带任何偏见、设想地对数据进行分析。大数据算法能够直接告诉我们数据之间的相关关系,即“是什么”而非“为什么”。很多时候,我们知道“是什么”就已经足够了。这方面最典型的例子莫过于“啤酒和尿布”的故事——美国沃尔玛超市对销售数据分析后发现,啤酒与尿布经常出现同一购物篮中,超市也并不知道这其中的缘由,但超市需要做的就是根据大数据分析结果,将尿布与啤酒放在一起销售即可。
总之,大数据不仅仅具有容量大、速度快和多样性的特征,更是推动了人类思维方式、方法论的进步和革新。正如有学者认为大数据思维是一种数据化的“整体思维”“更多”“更杂”“更好”的特征推动了人类生产力的进步。