1.1 数据仓库的概念与特点
数据仓库的英文名称为Data Warehouse,可简写为DWH或DW。数据仓库是为企业所有级别的决策制定过程提供所有类型数据支持的数据集合,是出于给用户提供分析性报告和决策支持的目的而创建的。
数据仓库是一个面向主题的、集成的、相对稳定的、随时间变化的数据集合,用于支持管理决策。数据仓库的概念由数据仓库之父Bill Inmon在1991年出版的Buiding the Data Warehouse一书中提出。
1.面向主题的
传统的操作型数据库中的数据是面向事务处理任务组织的,而数据仓库中的数据是按照一定的主题组织的。主题是一个抽象的概念,可以理解为与业务相关的数据的类别,每个主题基本对应一个宏观的分析领域。例如,一个公司要分析与销售相关的数据,需要通过数据回答“每季度的整体销售额是多少”这样的问题,这就是一个销售主题的需求,可以通过建立一个销售主题的数据集合来得到分析结果。
2.集成的
数据仓库中的数据不是从各个业务系统中简单抽取出来的,而是经过一系列加工、整理和汇总出来的。因此,数据仓库中的数据是全局集成的。数据仓库中的数据通常包含大量的历史数据,这些历史数据记录了企业从过去某一个时间点到当前时间点的全部信息,通过这些信息,管理人员可以对企业的未来发展做出可靠分析。
3.相对稳定的
数据一旦进入数据仓库,就不应该再发生改变。操作系统中的数据一般会频繁更新,而数据仓库中的数据一般不进行更新。当有改变的操作型数据进入数据仓库时,数据仓库中会产生新的记录,该记录不会覆盖原有记录,这样就保证了数据仓库中保存了数据变化的全部轨迹。这一点很好理解,数据仓库必须客观记录企业的数据,如果数据可以被修改,那么对历史数据的分析将没有意义。
4.随时间变化的
在进行商务决策分析时,为了能够发现业务中的发展趋势、存在的问题、潜在的发展机会等,管理者需要对大量的历史数据进行分析。数据仓库中的数据反映了某一个时间点的数据快照,随着时间的推移,这个数据快照自然是要发生变化的。虽然数据仓库需要保存大量的历史数据,但是这些数据不可能永远驻留在数据仓库中,数据仓库中的数据都有自己的生命周期,到了一定的时间,数据就需要被移除。移除的方式包括但不限于将细节数据汇总后删除、将旧的数据转存到大容量介质后删除或直接物理删除等。