第三节 大数据
1. 未来的石油
美国政府将大数据称为“未来的新石油”,这就意味着谁掌控了数据流谁就将主宰未来世界。
早在工业3.0时期,人们就用“信息大爆炸”来形容世界上数据的增长速度,如今到了工业4.0时期,产品和服务都由“标准化、量产化”步入“定制化、个性化”,这个世界的每时每刻都在产生数据。数据又开始以几何级增长。
1989年到2010年这20年间,全球数据的数量增长了100倍,从2010年到2015年的这5年,大约又增长了200倍!这种增长速度已经不是“爆炸”二字可以形容的了。国际数据公司(IDC)的《数据宇宙》报告显示:2008年全球数据量为0.5ZB,2010年为1.2ZB,人类正式进入ZB时代。更为惊人的是,2020年以前全球数据量仍将保持每年40%以上的高速增长,大约每两年就翻一倍,预计2020年将突破35ZB。
什么是ZB呢?我们先来看几组关于数据衡量单位的公式:
1B = 8 b
1KB = 1024 B ≈ 1000 B
1MB = 1024 KB ≈ 1000 000 B
1GB = 1024 MB ≈1000 000000 B
1TB = 1024 GB ≈ 1000 000000 000 B
1PB = 1024 TB ≈ 1000 000000 000000 B
1EB = 1024 PB ≈ 1000 000000 000000 000 B
1ZB = 1024 EB ≈ 1000 000000 000000 000000 B
1YB = 1024 ZB ≈ 1000 000000 000000 000000 000 B
美国国会图书馆是全球最重要的图书馆之一,1EB约等于4462个美国国会图书馆的数据存储量。《红楼梦》共有87万字(含标点),每个汉字占两个字节,即1个汉字=2B,由此计算1EB约等于6626亿部红楼梦。
任何事物量变到一定程度必然要发生质变。而大数据的价值已经不再只是巨大的社会和商业价值那么简单。在工业3.0时代之前,科学技术是第一生产力,而在工业4.0时代,大数据才是第一生产力。
笔者认为,互联网的本质是横向的“连接”,大数据的本质是“纵向”的统一。互联网用连接改变一切。它的结构是“网”状的,可以“网罗天下”,因为那时万物的形态都是有形并可以被描述的。而在大数据时代,所有的物体形态都将变成无形的“点”,一个物体就是一个数据,万物都被“纵向”统一了起来,这时再用这张“网”去归拢天下就行不通了。“网罗天下”也就不复存在,未来应该是“以点带面”。互联网的本质是手段、是过程,大数据的本质是结果、是决策。我们甚至可以有了结果再去寻找过程。
大数据时代,人们思维方式的最大转变在于,在以前,我们遇到问题总是在问“为什么?”,通过知晓事物的来龙去脉去发明和创造。而在大数据时代,人们最想做的是“是什么?”,直接探知结果,根据已知的推断未知的,过程被忽略。
我们知道,每个人都有自己的基因,即24种不同的染色体,其中最大的染色体约含有2亿5千万个碱基对,最小的则约有3800万个碱基对。这种基因就决定了每个人日后的生长和发育。在工业4.0时代,不仅人有基因,万物皆有基因,每一个产品在生产之前都被各种数据“描绘”好,同人的基因一样,也是与生俱来的。
人类基因组计划(Human Genome Project,HGP)与曼哈顿计划和阿波罗计划并称为三大科学计划,是由美国科学家于1985年率先提出的,旨在为30多亿个碱基对构成的人类基因组精确测序,基因的本质就是大数据。研究大数据就是研究世界的基因,掌握世间万象的规律。
关于大数据,目前还有一个很大的误读:很多人以为收集起了海量的数据就是大数据。比如我们经常看到某些机构发布的盘点、排名、信息公示等。真正的大数据并不只是搜集起了这些信息,而是能在海量数据的基础上,找出内在逻辑,并给出结论性意见。
比如,谷歌地图的价值并不是告诉你前面这条路上一共有多少车辆,而是根据路面的车辆情况,计算出前面哪个路口可以更快地的到达目的地。再比如,某医院搜集了很多孩子的哭声,然后根据某个小孩的哭声数据库来判断这个孩子的病情。医院还可以通过积累很多病人的脉搏、血压、心电图等数据,来判断或预警某病人可能产生的病情等。
2. 未来的第一生产力
通用电气CEO杰夫·伊梅尔特曾说:如果昨晚你睡觉时,GE还是一家工业公司,那么今天醒来就会变成一家软件和数据分析公司。
这个时代发展太快,当很多企业还在考虑该如何“互联网化”的时候,大数据时代就已铺天盖地而来,今后商业的产业链上的每一个环节都需要大数据。
工厂对大数据存在渴求:我只知道谁帮我卖,但不知道谁在买,我的产品该如何改进?我下次该生产多少才没有库存?
零售业对大数据存在渴求:我只知道谁在买,但不知道他因何而买?我该在什么环节采取什么措施才能提高购买率?
电子商务也需要大数据:比如开一家淘宝店,我们能做的只有做广告去吸引流量,或者用“赠送”和“服务”拼命提高转化率,却不知道每一个消费IP背后的真正动向。消费者有与其他商家比过价吗?是评价还是价格打动了他?
香港有家海鲜店,老板会安排专人通过摄像头查看食客点餐的顺序、夹菜的顺序、剩菜的种类和分量,通过这些信息分析进而用于第二天的采购决策,循环反复,以此降低生意成本,即实现采购的信息化管理。
3. 大数据可以预知未来
任何行为,皆有前兆。但在现实世界中,缺少实时记录的工具,许多行为看起来是“人似秋鸿有来信,事如春梦了无痕”。在互联网世界则完全不同,是“处处行迹处处痕”。要买商品,必先浏览、对比、询价;要搞活动,必先征集、讨论、策划。互联网的“请求”加“响应”机制恰恰在服务器上保留了人们大量的前兆性的行为数据,把这些数据搜集起来,进一步分析挖掘,就可以发现隐藏在大量细节背后的规律,依据规律,预测未来。
这就让人们看到了解决未来预测问题的一丝曙光。通过利用大数据技术,可以预测自然、天气的变化,预测个体未来的行为,甚至预测某些社会事件的发生。它会让我们的生活更为从容,让决策不再盲目,让社会更加高效地运转。这就是大数据技术带给我们的好处。全球复杂网络权威巴拉巴西认为,人类行为93%是可以预测的。我们的确不知道这位学者是怎么计算出93%这个数字的,但大数据可以预测未来是显而易见的,这是首个使人类具备了预测短期未来的技术。
其实,或多或少,人们都具备预测的能力。比如,儿子跟小伙伴们疯玩,我知道他肯定在7点之前会回家,因为他饿了。再如,家乡流传的很多谚语,其中一句“八月十五云遮月,正月十五雪打灯”,说明大自然就有许多规律性的东西。自然、社会、商业无不服从某些规律,大国兴衰、王朝更替亦有规律可循。只是过去囿于技术条件人们无法记录下造成某件事情发生的先兆数据,无法去计算其中的因果关系。这些规律要么被神秘化,要么被庸俗化。
任何事情的发生,都会有蛛丝马迹的前兆表露出来。如果我们不去关注一支股票的行情走势,就不会去买卖这支股票;如果我们从不去询问某件商品的价格,也很难产生购买行为;如果事先没有联络沟通,人们就很难聚在一起;如果没有闷热的天气,似乎就没有透心凉的大雨。关于地震前的种种异象,更是被许多书籍、文章大肆渲染。
假定有一种技术可以记录下所有这些先兆,人们就获得了未卜先知的能力。利用大数据技术,能够广泛采集各种各样的数据类型,进行统计分析,从而预测未来。大数据影响之深远,波及之广泛,远非一般的信息技术可比。
那么问题来了:
假如,我们收集了100万个人的面相特征(或者手纹、生辰八字),再结合这些人在不同人生节点遇到的事情,是不是就可以找出面相(或者手纹、生辰八字)和命运的规律?
再假如,我们收集了100万个住宅周边环境,再结合户主的不同人生节点遇到的事情,总结出来一套规律,是不是就是风水?
4. 中国大数据的现状
中国互联网的三大巨头BAT(百度、阿里巴巴与腾讯),腾讯依靠的是社交,阿里巴巴依靠的是电子商务,而百度依靠的就是大数据。
百度搜索本身就是基于大数据实现的技术。作为天然的大数据企业,百度拥有完整、领先的大数据技术,通过对全网大数据进行处理,百度成功推出百度指数、百度商情、百度司南等一系列大数据商业化应用,以及“百度迁徙”、“景点舒适度预测”、“城市旅游预测”等大数据社会化产品,便于公众和企业使用百度开放的大数据资源。
百度的做法是把开放云、数据工厂、百度大脑组成“大数据引擎”,把大数据存储、分析和智能化处理等一整套核心能力通过平台化、接口化的方式对外开放,这将是各个企业拥抱大数据的一座桥梁。
然而,中国实现真正的大数据还有待时日。寻找大数据的价值,就像在沙滩中淘金一样,首先沙滩要足够大,但是隔行如隔山,大数据需要跨行业、跨领域去融合数据资源。而中国不同平台的数据往往是孤立的,之间没有共享的接口,是一座座“数据孤岛”,这就给大数据的实现带来很大阻碍。
另外,从技术层面来说,中国企业在数据存储、数据分析挖掘以及智能化能力方面也都存在着难以突破的瓶颈。
以上两点,都迫切需要外力来整合。
5. “情感”会更胜一筹吗
水木然点评:
道可道,非常道。凡是能表达出来的道理,都不是永恒的道理。可能无论多么完美的数据,也不能完全代表事物的动向。因为人之所以是万物之精华,宇宙的灵长,是因为人的感情,比如,当我们经常心血来潮时,那么这个事情的情感会瞬间动荡,这是一种包含了人性和情感等多种因素的微妙变化,就如同“速度”无法超越“光速”一样,“数据”恐怕也是无法超越“情感”的。当然,这只是笔者个人的想法。
6. 未来战争形态——数据战争
未来世界的本质就是数据,一切的竞争归结到最后都是数据的竞争。在生活方面,你的存款、你的通讯录、你的社交、你的一切都是由一堆数字组成的。
在军事方面,大数据正在逐步取代传统的军事侦察手段,成为军队高层进行决策的重要依据。不仅侦查搜集,作战兵器、战场动态、指挥命令等都以数据的形式存在,这些瞬息万变的海量信息,构成了最基本的战场生态。
在未来战争中,大数据是信息库,也是杀手锏。美国国防科学委员会发布的研究报告建议美国国家安全局引入大数据技术,在科学家和工程师的电子邮件中,搜索相关国家发展核武器的证据,作为采取进一步措施的依据。
在大数据技术支撑下,跨网或离网攻击都将成为可能。即便是与互联网完全物理隔离的军事指挥控制系统和数据系统,都将成为利用大数据技术进行攻击的对象。
未来谁拥有了对海量数据占有、控制、分析、处理的“数据主导权”,谁就拥有“战争主动权”,这也将是赢得战争的决定性因素。
在军队组织形态上,扁平结构、层次简洁、高度集成、体系融合是大数据时代军队体制编制的基本特征。而今后军队的发力点在于:缩短从“传感器到射手”的时间差,实现“发现即打击”、“发现即摧毁”的作战目标。
美国国防部每年投资2.5亿美元用于大数据建设。在美国国防部的资助下,美国“记录未来”公司专门研究如何通过分析互联网信息,特别是“脸谱”、“推特”等社交网站,预先察知恐怖袭击、突发疾病等重大事件。正是在大数据技术的支撑下,海量的数据与农业时代的粮食土地、工业时代的石油钢铁一样,成为关键战略资源。所以,这就是我们开头所说的那句话了:美国政府已将大数据称为“未来的新石油。”