1.2 数据非今日变大,为什么今天火了
人类文明的发展进程,伴随着信息的传播方式和记录方式的发展。最初的信息是人们对物品计数的记录和传播,这就是最初的数字。计数方式从连续到离散,传播方式从口耳相传到图形记录,直至文字记录。在这一系列过程中,数据一直就有,而绝非今天才产生。但为什么今天的数据突然被冠以“大”之名,火了呢?
1989年,也许是埃里克·拉森第一次使用了“大数据”,数据科学发展的未来大潮开始萌发。1994年,比尔·盖茨拍了张照片(如图1-2所示),幽默地显示一张光盘能装下的数据比大量的纸张能记录下的数据都多,而他在1981年曾说“640KB内存应该对任何人都够用了”,但是不久DOS编写人员就要着手编写内存管理程序,因为640KB实在太小了。随着数据存储技术的发展,伴随着各种商业生态链的极速发展,更伴随着互联网的诞生和发展、网络2.0时代以及物联网的推波助澜,大数据的发展经过了兴起,已经渐入佳境。
图1-2 比尔·盖茨的光盘存储量类比
2008年9月,美国《自然》(Nature)杂志在Google成立10周年之际,出版了The nextgoogle专刊,讨论未来10年大数据会带来的变化,并提出大数据真正重要的是新用途和新见解,而不是数据本身。2010年,Google前执行主席埃里克·施密特说,现在两天所产生的数据量是人类文明开始到2003年的总和。2011年2月,《科学》(Science)杂志刊登了名为Dealing with data的专辑,通过社会调查的方式,讨论数据对科学研究的重要性及大数据对人们的影响。
2013年5月,《外交》杂志上撰文称:人们认为,公元前3世纪,埃及亚历山大图书馆(如图1-3所示)收藏了人类所有的知识。而今天全世界有足够多的信息,预计所有信息量达到1200艾字节,以至于将这些信息分配给每个活着的人,每人获得的信息量将是整个亚历山大图书馆藏书的320倍之多。如果把所有这些信息存储在光盘上,这些光盘将会分别堆成5摞,每摞都可被从地球一直堆到月球。
图1-3 埃及亚历山大图书馆
暂且不论这些比喻是否恰当,互联网,特别是移动互联网的惊人发展使数据更以爆炸性势头得以增长。互联网上经常使用两张拍摄于不同时间、同一位置的照片的对比来说明当今数字信息化技术发展对人们生活的改变。
2015年6月,爱立信发布《移动互联网报告》显示,2010年手机数据流量才刚刚达到语音流量的2倍,而在2014年,手机数据流量已经是语音流量的20倍以上。仅在2014—2015年,数据流量增长了55%。报告预测,到2020年全球数据流量较2014年又会增长10倍以上。
2016年2月,业务管理软件平台DOMO发布了一系列数据,显示互联网每分钟运行着大量的在线数据(如图1-4所示):每分钟有4310人登录亚马逊网站,Netflix用户每分钟会观看77160小时的视频,苹果用户每分钟会下载51000个应用,Instagram用户每分钟发布123060张照片,YouTube用户每分钟会上传300小时的新视频,Twitter用户每分钟发布347222条推文,Facebook用户每分钟点赞4166667次,Uber每分钟获得694个订单;每分钟平均收发邮件达到2.4亿封;Google的搜索量每分钟可达278万次。2015年世界互联网大会上,腾讯公司指出,其微信红包一天的收发量是22亿个,平均每分钟红包收发量是1527777个。根据支付宝官方大事记,2015年“双十一”期间共完成7.1亿笔支付,平均每分钟完成493055笔交易,当天淘宝活跃用户量超过一个亿,平均每分钟活跃用户超过69444人。
图1-4 DOMO发布的在线数据分析
2018年1月31日,中国互联网信息中心(CNNIC,China Internet Network Information Center)发布的我国第41次《中国互联网络发展状况统计报告》指出:截至2017年12月,我国网民规模达7.72亿人,手机网民规模达7.53亿人,网站总数为533万个,即时通信用户规模达7.20亿人,网络购物用户规模达5.33亿人,网上外卖用户规模达3.43亿人,在线旅行预订用户规模达3.76亿人,使用网上支付的用户规模达5.31亿人,网络音乐用户规模达5.48亿人,网络文学用户规模达3.78亿人,网络游戏用户规模达4.42亿人,网络视频用户规模达5.79亿人,网络直播用户规模达4.22亿人,在线政务用户规模达4.85亿人。巨量的在线和交易用户规模的背后是,各个网络交互环节中产生的海量数据。
回到本节我们提出的问题,数据并非今日变大,为什么现在火了呢?从上面一系列的数据来看,第一个原因是大数据有来源。现今互联网、移动设备和物联网等的迅猛发展,使人们每分每秒都在产生着巨量数据,使大数据有了更广泛的来源。而这些逐渐产生的数据,极大地挑战了信息化技术的存储能力和处理能力。那么,随之而来的第二个原因是,信息技术的突破性发展,使大数据价值有可能在有限投入和有效时间内被发掘和发挥出来,得以绽放价值。