第1节 引擎启动,“互联网+”快跑
信息领域可以有效利用的工具比比皆是,或者是高度可用的细颗粒资源,或者是精细化的制造工业,抑或是海量的线上/线下用户融合。而随着数据不断诞生,资源疯狂增加,一个新时代——“大数据时代”被唤醒了!
这就是大数据
体量之大、处理之复杂,常规的处理工具无法在可承受的时间范围内合理的撷取、处理,这是大数据(Big Data)最浅显的概念,但是数据膨胀到何种程度才能称为大数据呢?我们首先回顾一下数据的换算关系。
数据最小的基本单位是Byte,按照递增关系,数据的单位分别为bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、DB、NB,它们按照进率1024(2的十次方)来计算:
1Byte = 8bit
1 KB = 1024Bytes
1 MB = 1024KB = 1048 576Bytes
1 GB = 1024MB = 1048 576KB = 1073 741824Bytes
1 TB = 1024GB = 1048 576MB = 1073 741824KB = 1099 511627 776Bytes
1 PB = 1024TB = 1048 576GB = 1125 899906 842624Bytes
1 EB = 1024PB = 1048 576TB = 1152 921504 606846 976Bytes
1 ZB = 1024EB = 1180 591620 717411 303424Bytes
1 YB = 1024ZB = 1208 925819 614629 174706 176Bytes
1 DB = 1024YB = 1237 940039 285380 274899 124224Bytes
1 NB = 1024DB = 1267 650600 228229 401496 703205 376Bytes
PB级别的数据可以称为入门级的大数据,随着大数据在应用领域的决定作用越来越突出,决策力、洞察力、发现力和流程优化能力的重要程度越来越高,各种行业的结构性和非结构性数据在不断增加大数据的资源池,数据在不断膨胀,4V1C特点也在不断突出。
大数据的4V1C
初识大数据,体量之大是其最明显的特征,但仅仅是体量大还不足以描述大数据,短时间难以撷取、处理的数据还具有4V1C的特点。
1. Volume(体量大)
说得直白一点就是数据量大,大的程度是我们很难想象的。百度技术委员会理事长陈尚义曾经透露,百度每天处理的数据量将近100PB,这相当于5000个国家图书馆信息量的总和,而这仅是2013年的数据。2015年年初,百度云数据存储量已经超过5EB,换算成我们熟知的GB,这将是天量级的数值。
当PB级别的数据处理已经成为常态,EB级别的数据逐渐走向前端,面对庞大的增量,少有工具可以在短时间分析并绘制数据高保真模型,这就是大数据体量大的特征。
2. Variety(多样性)
以事务为代表的结构化数据,以网页为代表的半结构化数据,以视频和语音信息为代表的非结构化数据不断生成。
“互联网+”时代,尤其是移动互联触发的数据狂潮,让数据的多样性更加复杂,搜索、社交网络、视频、电子商务、传感器、智慧交通、电信等数据不断从移动端涌现,而工业4.0、3D打印、虚拟现实、物联网生成的数据丝毫不逊于移动端。
试图把握事务全貌,则无法架空、回避半结构化数据和非结构化数据,大数据只有接纳所有的数据才能进行全局性掌控,好在这样的问题对于大数据来说并不复杂。
3. Value(价值密度低)
在百度中搜索“大数据”,相关结果会达到惊人的7300 000条(如图2-1所示),对于用户来说,真正查看的也许只是前5页,之后的浏览趋势将呈现大幅下滑的状态,而真正有用处的也许只有5~10条,甚至更少,这就是价值密度。
图2-1 百度引擎搜索结果
信息时代,尤其是“互联网+”时代,数据的生成更快、更多,真正有用的难以瞬间呈现,只能通过大数据平台进行准确挖掘和呈现。
4. Velocity(速度快)
忽略网络状态,搜索引擎反馈搜索结果的速度通常是以“毫秒”计算,电子商务、即时分析工具同样如此,这是大数据领域中特有的定律——“秒级定律”,即需要在海量数据中心定位到最有价值的信息,并反馈给用户。
快速的处理和分析是数据分析和挖掘的重要保障。
5. Complexity(复杂性)
车联网中有一项重要功能——收集和分析行驶信息,分析的数据除了驾驶时间、休息时间、车辆状况、道路状况等基础数字信息外,还会监测车身不自然晃动、紧急制动频率,捕捉驾驶人员的行为和表情,进而分析驾驶人员的疲劳状态,将危险的征兆以图形化形式反馈给后台管理人员。
数字、图形、视频、感知等半结构和非结构数据涌入大数据,语义分析技术、图文转换技术、模式识别技术、地理信息技术等同类的或者交叉分析,导致大数据算法需要考虑太多的因素,这本身就是一项异常复杂的工作。市场研究机构还预测到2020年,全球数据总量将达到35.2ZB(1ZB=10亿TB),全球数据中心流量趋势也呈现出快速递进的趋势(如图2-2所示),大数据的复杂程度可想而知。
图2-2 全球数据中心流量增长趋势
数据来源:思科全球云指数,2013~2018
从大数据4V1C的特点上看,大数据注定与传统数据在分解、比较、聚类、归纳、分析逻辑推理研究上有着非常大的不同。
对于大数据的研究者和使用者来说,已经感受到了大数据的优势和约束,我们已经度过了理论研究门槛,开始体验大数据所带来的不一样的冲击。
大数据的破坏式创新
大数据拥有海量的分析样本,数据挖掘可以深刻洞见最为本质的核心,从本章开头的案例可以看出,当深刻了解选民的意向、动态和选举倾向时,改变选民潜在意识走向也成为容易的事情。
意向、态度、情感是非常模糊的概念,心理学专家也很难准确地判断出大规模人群的心理走向,但是大数据却可以通过鼠标点击、搜索引擎、关系图谱获取这样的非数字化信息,这对于预判未来趋势,获得潜在的产品和服务满意度走向起到了异常关键的作用。
“选举”和“数据”这样不相关的事务都被大数据攻陷,我们不得不叹服它的潜在能力,说其正在以破坏式创新方式渗透到各行业,这并不过分。
1.僵化的层次结构被消除
以往的数据规规矩矩地存储在数据库的各种表格之内,如OA、ERP、CRM等系统,数据的递交和反馈也完全遵从数据库的既定设计。
这样的数据库优、劣势非常明显,设计优势是拥有非常好的结构化特征,所有的数据都是经过层层审批录入数据库,精准性可以完全保障,“清晰的假象”和“不完全的精确”在这里完全不存在,这是此类数据库毫无争议的优势。
劣势是数据库只有单一的用途和价值,只有录入数据库的数据才能成为分析的主体,即便其他数据非常重要,但受制于格式的限制,也不能使用,比如GPS数据、搜索数据、关系图谱等。数据库规模看似庞大,但也只是以样本的形式呈现在分析者面前,全面数据的缺失也无法彰显事务的细节信息。
大数据提供了前所未有的可量化的维度,不再借助于随机样本,而是对所有的信息进行采样和分析,哪怕是鼠标的一次点击,键盘的一下敲击都可以成为大数据挖掘的对象,即便是错误的操作,大数据也丝毫不会在意,为何?犹如广袤海洋中,即便航空母舰这样的庞然大物,对于海洋来说也不过尔尔,数据量形成一定规模时,错误将会缩小至极限,直至毫无影响。
传统数据库层次关系被打破,各类信息都可以毫无顾忌地涌入数据库,忽略来源、忽略种类、忽略错误、忽略精准,大数据可以接受混乱,可以宽容错误,这给我们带来更多的价值,并让我们可以享受其所带来的难以量化的优质服务。
2.放弃因果关系的诉求
大数据的破坏式创新在因果关系的诉求上体现得淋漓尽致。以往,人们习惯需要知晓事件发生的原因,然后再追寻结果,因果关系成为决策制定的关键要素。
但是很遗憾,因果关系并非在所有决策上都可以起到正确的导向,两者还会产生背道而驰的极端反应。当大数据可以萃取到大体量的数据时,逐一对照因果关系已经不再可能,也完全没有这个必要,因为大数据告诉我们的不再是“为什么”,而是“做什么”。
放弃了因果关系的渴求,不再热衷于精确度,大数据给出的答案是相关关系,比如,我们在亚马逊上购买图书,网站会根据搜索、喜好、停留时间推荐出其他书籍,这些书籍通常会被读者购买,团购网站、音乐网站同样会探索和挖掘相关数据,为访问者提供更加贴合自己消费习惯的产品,让“数据”自己发声,让“数据”和用户直接交互。
3.绝对体量造就绝对走势
早前,人们并不认为朋友圈、空间、社交网站的照片是数据的来源,实际上照片的上传、推送、下载会夹杂大量的数据,GPS、传感器生成的数据会占据85%以上的数据量。
大型门户、电子商务、视频网站、地图导航、物联网以及医疗、政务、银行、证券系统都在疯狂地产生数据,2012年全球数据总量已经达到了2.7ZB,在随后的十年间数据的增长将更为迅速,市场研究机构预测到2020年,全球数据总量将达到35.2ZB。
如今不再是资源有限的时代,而是资源无限膨胀的时代,数据广泛分布在多个数据中心之内,每秒钟会接受数千万条指令和请求,数据同步和数据细节在大数据时代非常不现实,适当忽略微观上的精准度,宏观上将会有更好的洞察力。
很难想象,传统的选举和大数据能扯上关系,但这确实发生了,大数据绝对体量带来了不可估量的能力,大数据影响选举的走势、舆情监控已经暴露在数据团队的指标系统中,未来大数据可以预测疾病的发生,可以左右经济的走势,可以洞察行业,可以提供指向性的商业策略。
这样的事情还将会继续突破人们的想象,大数据的破坏式创新将持续进行。
为何称大数据为“引擎”
观看F1大赛,经常被轰鸣的声音激发得热血沸腾,那是引擎发出的怒吼。汽车性能与轮胎、悬挂等系统密不可分,但是最重要的依旧是动力输出的引擎。
汽车如此,火车、火箭、航天飞机同样如此,当然“互联网+”也需要超性能引擎的支撑,大数据可以非常好地扮演这个角色。
1.大数据的高性能引擎
交通方面拥有车联网、物联网、船联网,还有大量的路网监控,每日生成的数据难以计数;卫生方面拥有流感法定报告数据、全国流感样病例哨点监测和病原学监测数据,可对这些数据进行智能化价值挖掘。
大数据可以通过路网监控、车联网数据,分析最佳的车流量信息,做出最优的信号灯控制时间,这种智能路径规划会在交通流量管制方面提供更多帮助,也会让道路自己管理自己。不仅仅是交通,大数据可以让各个领域的运作发展得更加顺畅,这就是引擎的作用。
2.大数据的长效引擎
另外,大数据的引擎效应还体现在“长尾理论”(如图2-3所示), “长尾”是统计学中幂法则(Power Law)和帕累托分布(Pareto Distribution)特征的一个表现。受成本和效率因素的影响,过去人们只能关注重要的人和事,在正态分布曲线中,体现的就是曲线的“头部”。由于关注曲线的“尾部”,需要更多精力和成本,所以很少有企业和系统会关注“尾部”信息。
图2-3 大数据的长尾理论
小数据时代,只关注正态曲线“头部”,而没有精力和能力关注“尾部”,这就会造成信息的片面和失真,有时不能保证一个系统完全在既定路线上长效运转。而大数据作为引擎,在正态分布中,不仅关注“头部”,亦关注“尾部”,长效引擎效应非常明显。
我们可以参照一下Google公司,其不仅仅网罗大企业用户,也更加关注小企业,甚至小微企业,Google的广告把数百万计的小型企业集中在一个平台上,通过小型企业换取大量利润,这是一条长尾商业化的过程;再如余额宝不设置门槛,广泛接受小额用户,这长尾化了大量的用户群体。
大数据有能力关注长尾的任何环节,这些“尾部”的信息同样会给大数据提供非常重要的数据本源,为大数据精准预测提供绝佳数据支撑,大数据长尾化也是下一代信息技术的创新、竞争及生产力的重要抢占要地。