1.2 大数据挑战
什么是大数据?多大的数据量可以称为大数据?不同的年代有不同的答案[2]。20 世纪80年代早期,大数据指的是数据量大到需要存储在数千万个磁带中的数据;20 世纪90 年代,大数据指的是数据量超过单个台式机存储能力的数据;如今,大数据指的是那些关系型数据库难以存储、单机数据分析统计工具无法处理的数据,这些数据需要存放在拥有数千万台机器的大规模并行系统上。大数据出现在日常生活和科学研究的各个领域,数据的持续增长使人们不得不重新考虑数据的存储和管理。
随着社会计算的兴起,人们习惯于在网上分享和交流信息。比如,社交网站Facebook拥有庞大的用户群,而且在不断增长。这些用户每天发出的日志以及分享的资料更是不计其数,其数据量已经达到PB级别,传统的解决方案已经不能很好地处理这些数据。Facebook自己开发了Cassandra系统,现在又采用HBase,这些针对海量数据的管理系统能够较好地为用户提供服务,而且具有可扩展性和容错性,这是解决大数据问题所需要的性能。微博服务商Twitter也面临大数据的挑战,消息的发送量达到每天数亿条,而查询量则达到每天数十亿次,这要求存储管理系统不仅能够存储大规模数据,而且能够提供高吞吐的读/写服务。Twitter原先使用MySQL数据库,之后由于用户暴增便将数据迁移到NoSQL系统上,尽管NoSQL系统还未成熟,但却是解决海量数据的较为有效的方案。其他的互联网公司同样面临着大数据带来的问题,如Goolge搜索引擎需要处理大规模的网页信息,YouTube则需要存储和提供用户分享的视频数据,维基百科提交用户分享的知识等,这些都涉及大规模数据信息存储与管理。
随着电子商务的发展,越来越多的人在网上选购商品,商务网站需要存储大量的商品信息和用户的交易信息,涉及大规模的数据。同时网站需要提供迅速的请求响应,以提高用户体验来吸引客户。而且网站还要对这些海量数据进行处理和分析,以便更有针对性地向用户推荐商品,海量数据成为系统构建和业务成败的关键因素。中国商业网站淘宝使用HBase来存储数据,同时不断探索自己的解决之路,开发了支持大数据的数据库系统OceanBase来实现部分在线应用。全球最大的线上拍卖和购物网站eBay也积极寻求海量数据的解决方案,其基于Hadoop建立了自己的集群系统Athena来处理大规模数据,同时开发了自己的开源云平台项目Turmeric来更好地开发和管理各种服务。同时,各大零售公司无论是在线销售还是实体销售,都会注意收集客户的消费信息以便有针对性地提供服务或推荐商品,这些都涉及大规模数据的应用。
各个领域的科学研究同样面临海量数据的挑战,从生物基因到天文气象,从物理实验到临床医学,得益于测量技术和设备的发展,这些领域在实验或实践中产生了大量的数据,而人们需要对这些数据进行处理分析从而挖掘出有价值的信息,但这不是容易的事情。随着下一代基因测序技术的发展,基因中所蕴含的信息逐渐被人们所发掘,人们获得更多更准确的基因数据,但是如何匹配基因数据,如何从这些数据中挖掘出所需要的信息,这是生物信息学遇到的新挑战。在环境气象研究中,科学家已经收集了数十年甚至上百年的气象环境数据,在这些数据中分析气候的变化需要海量数据处理技术的支持。在医学药物研究中搜集的大量的病人生理数据和药物测试数据,这些数据的规模很大,需要从中分析出有用的信息。在人文社会科学中,社会学家开始注意互联网社交网络上的人际交往和社会关系,其涉及的数据量也是非常巨大的,从海量数据中找出社会学家感兴趣的内容是富有挑战性的。人工智能研究方面,人们希望计算机拥有人类的学习能力和逻辑推理能力,这就需要机器存储大量的经验数据和知识数据,还需要从这些大量数据中迅速获得所需要的内容,并对其进行分析处理,从而做出正确有效的判断。
如今传感器的广泛使用,数据采集更加方便,这些传感器会连续地产生数据,如实时监控系统、网络流量监测等。除了传感器源源不断地产生数据外,许多领域都会涉及流数据,如经济金融领域中股票价格和交易数据、零售业中的交易数据、通信领域中的数据等都是流数据,这些数据最大的特点就是海量,因为它们每时每刻连续不断地产生,但与其他的海量数据不同,流数据连续有序、变化迅速,而且对处理分析的响应度要求较高,因此对于流数据的处理和挖掘往往采用不同的方法。经济金融领域各个方面都产生海量数据,如证券价格变化和股票交易形成的流数据,企业或个人各种经济活动而产生的数据等。现代经济已经步入海量数据时代,在新时代下可以带来创新和生产率增长,并可能出现新的商业模式。利用好经济生活产生的海量数据,可以发挥重要的经济作用,不仅有利于企业的商业活动,也有利于国民经济,提高国家的竞争力。面对大规模的经济数据,人们除了需要提高获取、存储和分析数据的能力,同时需要保障数据的安全和隐私,但这仍然是巨大的挑战。
传统的关系型数据库并不能够很好地解决海量数据带来的问题,单机的统计和可视化工具也变得力不从心。一些新的数据管理系统如并行数据库、网格数据库、分布式数据库、云平台、可扩展数据库等孕育而生,它们为解决海量数据提供了多种选择。