第7章 “互联网+”时代的基础设施:云 端 网(3)
大数据的魔力
大数据有数据量大、数据多样性等特征。实际是将各个维度的数据进行综合分析进而进行一定的预测。当不同的数据流被整合到大型数据库中后,预测的广度和精度都会大规模的提高。
例如,当一个数据库从不同的数据来源获得了你使用手机的时间和地点、信用卡购物、银行卡电子收费系统、使用QQ等聊天工具的对象、你的QQ好友关系图、你在新浪或腾讯微博的收听及被收听关系图谱、你交纳的水电燃气费等各方面的数据,数据分析师就能通过匹配获得你生活的不同侧面。通过大数据,数据分析可以发现各种各样的关联。通过分析,可以发现你多方面的需求,并不仅仅是诸如怀孕书籍和尿不湿之间的简单关联了。
在一篇名为《一个哲学家,帮中情局找到了本·拉登》的文章中记录了这样的事。硅谷最传奇的大数据分析公司——Palantir,从国家安全局、联邦调查局、中央情报局、国防情报局到陆军、海军陆战队、空军和特种作战司令部,美国几乎所有的情报和军事机构都在用他们的产品。2011年,在阿富汗、叙利亚和巴基斯坦,这个公司帮美国中情局找到了大量基地组织和塔利班高层,最后连本·拉登的藏身地都被他们挖了出来。
当时中情局非常依赖线人报告和无人机的侦察报告,由于判断不准无人机经常炸错人。由于类似的事一再发生,连中情局内部的人都吐槽说,“在阿富汗,长得高的人真是没法活”。而Palantir的软件能够分析比对上千个数据库内的审讯记录、财务信息、DNA样本、声音样本、视频、地图和世界各地的报告,并发现其中的关联和可疑之处,挖掘出最有价值的信息,在大海里成功捞出了缝衣针,最终协助中情局成功捕捉到了本·拉登的行踪。
有几个美国药品管制局的官员听说他们的软件很神,也跑来找他们帮忙。连本·拉登都找得到,几个小毛贼又算得了什么?Palantir的工程师只花了几天就完成了数据分析。执法人员照着他们的分析结果去调查,最后居然逮到了676个毒贩,顺便还抄出了467公斤可卡因和29公斤冰毒。
他们靠的是什么?靠的就是大数据分析技术。而你这时也能想到,大数据的核心就是巧妙、科学地根据分析技术和技能,从海量看似毫无意义的数据中,经过汇总分析,得出想要的结果。而数据的来源无所不包,从用户上网数据到消费记录、出行记录、医疗记录等等。在数据足够“大”的情况下,你生活中几乎所有的需求都可能会被预测出来。
又例如,通过分析大量用户的搜索记录,比如“咳嗽”、“发烧”等特定词条,谷歌公司能准确预测美国冬季流感传播趋势。和官方机构相比,谷歌能提前一两周预测流感爆发,预测结果与官方数据的相关性高达97%。2009年,在甲型H1N1流感爆发的几周前,谷歌的工程师们公开发表了一篇论文,不仅预测流感即将爆发,并且其预测还精确到美国特定的地区和州。这让人们感到十分震惊。准确预测流感疫情,说起来并不复杂,谷歌一直致力于对用户检索数据的分析。用户求医问药等搜索数据可谓海量,把这些数据再拿来与美国疾控中心往年记录的实际流感病例信息相比对,就帮助谷歌做出了准确预测。
对个体而言,大数据可以为个人提供个性化的医疗服务。过去我们去看病,医生只能对我们的当下身体情况做出判断,而在大数据的帮助下,将来的诊疗可以对一个患者的累计历史数据进行分析,并结合遗传变异、对特定疾病的易感性和对特殊药物的反应等关系,实现个性化的医疗。还可以在患者发生疾病症状前,提供早期的检测和诊断。早期发现和治疗可以显著降低肺癌给卫生系统造成的负担,因为早期的手术费用是后期治疗费用的一半。
再举例来说,在传统教育模式下,分数就是一切,一个班上几十个人,使用同样的教材,同一个老师上课,课后布置同样的作业。然而,学生是千差万别的,在这个模式下,不可能真正做到“因材施教”。
比如一个学生考试得了88分,这个分数仅仅是一个数字,它能代表什么呢?88分背后是家庭背景、努力程度、学习态度、智力水平等,把它们和88分联系在一起,这就成了“数据”。大数据因其数据来源的广度,有能力去关注每一个学生的微观表现——他在什么时候开始看书,在什么样的讲课方式下效果最好,在什么时候学习什么科目效果最好,在不同类型的题目上停留多久等等。这些数据对其他个体都没有意义,是高度个性化表现特征的体现。同时,这些数据的产生完全是过程性的:课堂的过程,作业的过程,师生或同学的互动过程……而最有价值的是,这些数据完全是在学生不自知的情况下被观察、收集的,只需要一定的观测技术与设备的辅助,而不影响学生任何的日常学习与生活,因此它的采集也非常自然、真实。
在大数据的支持下,教育将呈现另外的特征:弹性学制、个性化辅导、社区和家庭学习……大数据支撑下的教育,就是要根据每一个人的特点,解放每一个人本来就有的学习能力和天分。
大数据时代的隐私保护
当然,让人们担心的是,大数据包含有包罗万象的数据,其中不少数据涉及个人的职位、年龄、身体状况、消费水平、旅行习惯等隐私,那么,在大数据时代,个人隐私能够得到保护吗?这只有靠国家相关部门实时推进隐私保护、企业主动落实隐私保护责任,大数据产业在飞速发展的同时才不会对民众隐私产生威胁。
在大数据产业中,对个人隐私的保护有两个基本的作法,或者说原则:
一是符号化。符号化是指识别用户的时候,识别的仅仅是一个“符号”,这个符号与真实信息并不相关,系统通过一定的算法能够知道多次登录的是同一个用户,但并没有办法反推出这个人是谁,从而,电话、住址等信息都没法与本人关联起来。
二是用户特征。用户特征意味着在大数据时代企业感兴趣的往往是这个用户的特征,而不是家庭地址、电话号码等真正敏感的信息。例如,系统需要了解本科以上学历、月收入10000元以上、已婚等这样一个群体,只需要找出符合这些特征的人的特性,并不关心这个人是谁。这样也不会造成隐私的泄露。
3.云计算
为什么叫云计算
据说是很多人被“云计算”的复杂解释完全弄糊涂了,掉到了云里雾里,于是出现了“云计算”这个叫法。不知道以后还会不会出现“霾计算”(Smog Computing)?
还是举例子吧。假定你在家上网、看电视、照明用的电是从你家旁边的水电站发出来的。突然有一天这个水电站上的河流缺水、发不出电了,怎么办?幸好,水电站的电网和其他地区的电网是联通的,只要全国的河流没有集体断流罢工、电网没出故障,还是可以保证你随时有电可用。
这个例子还不够准确,但它至少让你明白,云计算,是让你可以享受一种在线的资源。
好了,现在这个电网上传送的不是电力,而是数据计算力,电网另一端也不是无数的水电站,而是无数台计算机。“云”就是计算机群,每一群包括了几十万台、甚至上百万台计算机。你只需要一台能上网的电脑,不需关心存储、计算发生在哪朵“云”上,就好比不管你的电是哪个电站发过来的,服务商已经替你分配好了。但一旦有需要,你可以在任何地点用任何设备,如电脑、平板电脑、手机等快速地计算和找到这些资料。这样一听起来,这个“云”就美好了许多。
“云”的好处还在于,其中的计算机可以随时更新,保证“云”长生不老,你再也不用担心资料丢失。目前,Google云计算已经拥有100多万台服务器,Amazon、IBM、微软、Yahoo等的“云”均拥有几十万台服务器。企业私有云一般拥有数百上千台服务器。“云”能赋予用户前所未有的计算能力。
有人这样比喻,单机时代用个人电脑来管理信息,就像把钱塞到枕头下面或柜子里;而用云计算共享数据和应用,等于把钱存进银行,可以利用ATM、电话银行或网上银行管理账号,还有银行的专业人士帮你理财,当然,这个“银行”里存的不是钱,而是海量的信息,并且它有强大的处理信息的能力。
由于计算和存储任务都是由计算云完成的,你只需要发出简单的指令,也就好比你电脑的CPU和硬盘等硬件都由“云”提供,而你只需要一根网线和浏览器软件,就可实现无限量存储并具备超强计算,且有专业的技术人员帮你维护软、硬件,防范病毒及网络攻击,替你做你以前在个人电脑上所做的一切。所以,云计算对用户端设备要求非常低而功能强悍。
由于你使用的是网络的计算资源,理论上说,你可以完成超级计算机才能完成的庞大计算工作。对于企业级用户来说,不再需要购买服务器,而是直接去云数据中心购买计算和存储服务。你可以按需购买,云计算可以像自来水、电、煤气那样计费。
可以这样说,云计算就是“互联网+计算”,是用互联网提供智能化计算资源的服务模式。这里的云指的就是互联网。云计算的实现,则为“互联网+”提供了保驾护航的作用。
云计算的应用实例
推出广受好评的原创动漫游戏《崩坏学园2》的米哈游公司采用了阿里计算服务。当《崩坏学园2》登陆iOS平台当天,便冲到了收费榜的第一名,限免期间又进入免费榜、畅销榜双榜前十。得益于阿里云计算的弹性,《崩坏学园2》在单服日活跃用户超过40万的时候,依旧没有另外开设服务器,这就确保了所有用户都可以在同一个世界里“愉快地玩耍”。
另一个例子是,作为国内最大、全球第四大货币基金的“余额宝”,其良好的用户体验就有赖于大规模计算能力的强力支撑。其基于阿里云计算平台实时处理的交易请求高达每秒11000笔,而传统架构下服务器的处理能力每秒不足1000笔,效率提升了十倍多,只用30分钟就能完成之前需要8小时才能完成的数据处理工作。