3.1 大数据定义
虽然数据仓库技术自诞生之日起的二十多年里一直被用来处理大数据,但“大数据”这个名词却是近年来随着以Hadoop为代表的一系列分布式计算框架的产生发展才流行起来。
所谓大数据是这样一个数据集合,它的数据量和复杂度是传统的数据处理应用无法应对的。大数据带来的挑战包括数据分析、数据捕获、数据治理、搜索、共享、存储、传输、可视化、查询、更新和信息安全等。“大数据”这个术语很少指一个特定大小的数据集,它通常指的是对很大的数据应用预测分析、用户行为分析或其他的数据分析方法,从数据中提炼出有用的信息,使数据产生价值,因此大数据更像是一套处理数据的方法和解决方案。如果非要给出一个定量的标准,大数据的数据量至少是TB级别的,在当前这个信息爆炸的时代,PB级别的数据量已经较为常见了。用于分析的数据量越大,分析得到的结果就越精确,基于分析结果做出的决策也就越有说服力,而更好的决策能够降低成本、规避风险、提高业务运营的效率。
大数据所包含的数据集合的大小通常超越了普通软件工具的处理能力,换句话说,普通软件没办法在一个可以容忍的时间范围内完成大数据的捕获和处理。大数据的数据量一直在飞速增长,2012年的时候,一般要处理的数据集合还只有几十TB,到现在PB甚至更大量级的数据已不新鲜。要管理如此之大的数据,需要一系列新的技术和方法,它们必须具有新的数据整合形式,从各种各样大量的复杂数据中洞察有价值的信息。
在2001年的调查报告和相关文献中,Gartner的分析员Doug Laney从三个维度定义了数据增长带来的机遇与挑战。这三个维度是大体积(数据的数量)、高速度(数据输入输出的速度)和多样性(数据的种类和来源)。直到现在,仍然有很多公司使用这个模型描述大数据。2012年,Gartner将它的定义修改为:大数据是大容量(Volume)、高流速(Velocity)、多样化(Variety)的信息资产,它需要新的数据处理形式来增强决策、提升洞察力、优化处理过程。Gartner关于大数据的3V定义一直被广泛使用。与Gartner定义一致的另外一种表述是:大数据是具有大体积、高流速、多样化特征的信息资产,需要特定的技术和分析工具将其转化为价值。有些组织在3V的基础上增加了一个新的V-“Veracity”,即真实性来描述大数据。现在普遍认可的大数据是具有4V,即Volume、Velocity、Variety、Veracity特征的数据集合,用中文简单描述就是大、快、多、真。
1. Volume——生成和存储的数据量大
随着技术的发展,人们收集信息的能力越来越强,随之获取的数据量也呈爆炸式增长。例如百度每日处理的数据量达上百PB,总的数据量规模已经到达EP级。
2. Velocity——数据产生和处理速度快
指的是销售、交易、计量等人们关心的事件发生的频率。例如,2015年双十一当天,支付宝的峰值交易数为每秒8.59万笔。
3. Variety——数据源和数据种类多样
现在要处理的数据源包括各种各样的关系数据库、NoSQL、平面文件、XML文件、机器日志、图片、音视频流等,而且每天都会产生新的数据格式和数据源。
4. Veracity——数据的真实性和高质量
诸如软硬件异常、应用系统bug、人为错误等都会使数据不正确。大数据处理中应该分析并过滤掉这些有偏差的、伪造的、异常的部分,防止脏数据损害到数据分析结果的准确性。