数据中心集成开发平台
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

3.1 数据仓库概述

3.1.1 数据仓库的基本概念

数据仓库是面向主题的、集成的、时变的、非易失的数据集合,支持管理部门的决策过程(William H. Inmon,2006)。数据仓库是对各类异构的数据源的有效集成,集成后按照不同主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改,它主要用于支持决策,面向分析型数据处理。数据仓库是提供面向主题、有规律的各类数据访问的各种技术和模块的总称。数据仓库是一个环境,而不是一件产品,它有效地将操作型数据集成到统一的环境中,让用户能更快、更方便地查询所需要的当前和历史数据信息,这些数据信息在传统的操作型数据库中很难或不能得到。根据数据仓库概念的含义,数据仓库主要有以下几个特点。

(1)面向主题。

主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。数据仓库中的数据是按照一定的主题域进行组织的,如在GIS中按照行政级别、年度、专题、比例尺等主题进行组织数据,它一般提供了特定主题的简明视图,排除了对决策无用的数据。

(2)集成的。

数据仓库中的数据是在对原有的多源异构数据抽取、清理的基础上经过系统加工、汇总和整理后集成在一起,并消除源数据中的不一致性,以保证数据仓库内的信息命名约定、编码结构的一致性。

(3)时变的。

数据存储从历史的角度提供信息,数据仓库中包含时间元素,它所提供的信息总是与时间相关联的,数据仓库的主题数据视图隐式或显式地包含一些时间元。另外,数据仓库中存储的是一个时间段的数据,而不仅是某一个时刻的数据。

(4)非易失的。

数据仓库总与操作环境下的实时应用数据物理地分离存放,因此不需要事务处理、恢复和并发控制机制。另外,数据仓库里的数据通常只需要两种操作:数据的初始化注入和数据直接访问,即一旦某个数据进入数据仓库以后,一般情况下将被长期保留,对数据仓库中的操作主要是大量的查询,修改和删除操作很少,因此其数据相对稳定,极少或根本不更新。

综上所述,数据仓库是一种语义上一致的数据存储,它充当决策支持数据模型的物理实现,并存放支持决策所需的信息。数据仓库也常常被视为一种体系结构,通过将多类型的异构数据源中的数据集成在一起而构成,支持结构化和专门的查询、分析等。