2.1 国际数据治理框架
国际上,主流的数据治理框架主要有ISO数据治理标准、GDI数据治理框架、DAMA数据管理框架等。对国际主流数据治理框架的理解有助于我们建立符合企业自身业务需求的数据治理体系。
2.1.1 ISO数据治理标准
ISO(国际标准组织)于2008年推出第一个IT治理国际标准——ISO/IEC 38500。2015年,ISO发布ISO/IEC 38505标准,该标准阐述了数据治理的目标、基本原则和数据治理模型,是一套完整的数据治理方法论。
ISO/IEC 38505标准的数据治理方法论的核心内容如下。
- 数据治理的目标:促进组织高效、合理地利用组织数据资源。
- 数据治理的6个基本原则:职责、策略、采购、绩效、符合和人员行为。这些原则阐述了指导决策的推荐行为,每个原则描述了应该采取的措施,但并未说明如何、何时及由谁来实施。
- 数据治理模型:提出了数据治理的“E(评估)-D(指导)-M(监督)”方法论,通过评估现状和将来的数据利用情况,编制和执行数据战略和政策,以确保数据的使用服务于业务目标,指导数据治理的准备和实施,并监督数据治理实施的符合性等。
ISO/IEC 38505数据治理标准的架构如图2-1所示。
图2-1 ISO/IEC 38505数据治理标准
(1)内部需求
企业将围绕组织的战略目标塑造数据文化,以确保数据治理策略达到其总体目标。由于数据与决策一样有价值,因此这种数据文化需要的数据访问、良好数据相关的组织行为处理依赖于相关环境中的所有做法和决策过程。
(2)外部压力
企业可能需要调整其数据治理战略和政策,以确保其符合外部市场的压力对其的作用。外部市场的压力主要包括:
- 客户及利益相关方对可用数据的可用性、治理和交互的期望;
- 竞争对手使用数据来改进或扩展其产品、服务或流程;
- 数据保留和处置要求;
- 适当处理偏见、歧视和定性的决策义务;
- 有关共享或重用数据的自身产权问题。
(3)评估
在评估企业数据治理时,理事机构(数据治理委员会)应考虑到组织的内部要求和外部压力。此外,理事机构应审查和判断目前和未来数据的管理和使用情况,例如:
- 数据和相关技术与流程的内部使用情况;
- 竞争对手、其他组织、政府和个人使用的数据;
- 评估不断发展的一系列立法、法规、社会期望;
- 控制并影响数据使用的其他因素。
(4)指导
指导数据战略和政策的制定与执行,旨在:
- 最大化企业对数据的投资的价值;
- 根据数据风险偏好管理与数据相关的风险;
- 确保组织的数据管理水平。
(5)监督
通过适当的系统测量,监测数据的使用情况,旨在:
- 确保数据被放到企业战略的实施中;
- 确保数据的使用和管理符合内部管理和外部法规监管要求;
- 确保数据安全及隐私问题,保证数据使用的透明度;
- 确保数据的存档或处置符合数据管理流程;
- 确保数据合规使用,包括数据共享、出售的相关权利和许可;
- 确保数据使用符合规范,并避免偏见或歧视。
2.1.2 DGI数据治理框架
DGI(数据治理研究所)是业内最早、最知名的研究数据治理的专业机构。DGI于2004年推出DGI数据治理框架,为企业根据数据做出决策和采取行动的复杂活动提供新方法。该框架认为,企业决策层、数据治理专业人员、业务利益干系人和IT领导者可以共同制定决策和管理数据,从而实现数据的价值,最小化成本和复杂性,管理风险并确保数据管理和使用遵守法律法规与其他要求。
DGI数据治理框架的设计采用“5W1H”法则,将数据治理分为人员与治理组织、规则、流程3个层次,共10个组件:数据利益干系人、数据治理办公室和数据管理员;数据治理的愿景,数据治理的目标、评估标准和推动策略,数据规则与定义,数据的决策权,数据的职责,数据的控制;数据治理流程。
其数据治理框架如图2-2所示。
图2-2 DGI数据治理框架
1. Why:为什么要做数据治理
对应于DGI框架中的第1~2个组件:数据治理的愿景和数据治理的目标。
(1)数据治理的愿景
对于企业“为什么要做数据治理”这个问题的回答是对数据治理的最高指引。
DGI认为最高级的数据治理方案一般都具有三大终极目标:
- 主动的规则定义与一致性调整;
- 为数据的利益干系人提供持续的、跨职能的保护和服务;
- 解决因违反规则而产生的问题。
相比于数据治理的其他部分,如What、Who、How,Why更加重要,它为企业数据治理指明了方向,是其他数据治理活动的总体策略。
(2)数据治理的目标
DGI认为数据治理目标的定义应可量化、可衡量、可操作,且要服务于企业的业务和管理目标,例如:增加利润,提升价值;管控成本的复杂性;控制企业的运营风险等。
同时,DGI强调不同组织的数据治理方案应有所侧重,一般企业的数据治理涵盖以下一个或多个侧重点:
- 致力于政策、标准、战略制定的数据治理;
- 致力于数据质量的数据治理;
- 致力于隐私、合规、安全的数据治理;
- 致力于架构、集成的数据治理;
- 致力于数据仓库与商业智能的数据治理;
- 致力于支持管理活动的数据治理。
2. What:数据治理治什么
对应于DGI框架中的第3~6个组件:数据规则与定义、数据的决策权、职责、控制。这4个组件回答了数据治理治什么的问题。
- 数据规则与定义,侧重业务规则和数据标准的定义,例如数据治理相关政策、数据标准、合规性要求等。
- 数据的决策权,侧重数据的确权,明确数据归口和产权,为数据标准的定义、数据管理制度、数据管理流程的制定奠定基础。
- 职责,侧重数据治理职责和分工的定义,明确谁应该在什么时候做什么。
- 控制,侧重采用什么样的措施来保障数据的质量和安全,以及数据的合规使用。
3. Who:谁参与数据治理
对应于DGI框架中的第7~9个组件:数据利益干系人、数据治理办公室和数据管理员。这3个组件对数据治理的主导、参与者的职责分工给出了相关参考,回答了谁参与数据治理的问题。
(1)数据利益干系人
数据利益干系人是可能会影响或受到所讨论数据影响的个人或团体,例如某些业务组、IT团队、数据架构师、DBA等,他们对数据治理会有更加准确的目标定位。
(2)数据治理办公室
数据治理办公室的职责是促进并支持数据治理的相关活动,例如阐明数据治理的价值,执行数据治理程序,收集及调整政策、标准和指南,支持和协调数据治理的相关会议,为数据利益干系人开展数据治理政策的培训、宣贯等活动,等等。
(3)数据管理员
很多企业的数据治理委员会可能会分为几个数据管理小组,以解决特定的数据问题。数据管理员负责特定业务域(如营销域、用户域、产品域等)的数据质量监控和数据的安全合规使用,并根据数据的一致性、正确性和完整性等质量标准检查数据集,发现并解决问题。
4. How:如何开展数据治理
DGI框架中的第10个组件——数据治理流程——描述了数据治理项目的全生命周期中的重要活动。DGI将数据治理项目的生命周期划分为如下7个阶段:
1)数据治理价值声明;
2)数据治理确定路径;
3)数据治理计划与资金准备;
4)数据治理策略设计;
5)数据治理策略部署;
6)数据治理策略实施;
7)数据治理监控、评估和报告。
5. When:什么时候开展数据治理
这一条包含在DGI框架的第10个组件中,用来定义数据治理的实施路径,回答数据治理的时机和优先级等问题。
6. Where:数据治理位于何处
这一条包含在DGI框架的第10个组件中,强调明确当前企业数据治理的成熟度级别、找到企业与先进标杆的差距是确定数据治理目标和策略的基础。
DGI框架是一个强调主动性、持续化的数据治理模型,对实际治理实施的指导性很强。DGI框架可以普遍应用于企业的数据治理中,它具有良好的扩展性,框架中的10个组件都将出现在最小的数据治理项目中,并可以随着参与者数量的增加或数据系统复杂性的提高灵活扩展。
2.1.3 DAMA数据管理框架
DAMA(国际数据管理协会)是一个由全球性数据管理和业务专业的志愿人士组成的非营利协会,致力于数据管理的研究和实践。其出版的《DAMA数据管理知识体系指南》(简称DAMA-DMBOK)一书被业界奉为“数据管理的圣经”,目前已出版第2版,即DAMA-DMBOK2。
DAMA-DMBOK2中介绍的数据治理框架如图2-3所示。
图2-3 DAMA数据治理框架
DAMA-DMBOK2用一个“车轮图”定义了数据管理的11个知识领域,即数据治理、数据架构、数据建模和设计、数据存储和操作、元数据管理、数据质量管理、主数据和参考数据管理、数据安全管理、数据集成和互操作、文件和内容管理、数据仓库和商业智能。
(1)数据治理
数据治理位于“车轮图”中央。在数据管理的11个知识领域中,数据治理是数据资产管理的权威性和控制性活动(规划、监视和强制执行),是对数据管理的高层计划与控制,其他10个知识领域是在数据治理这个高层战略框架下执行的数据管理流程。
(2)数据架构
数据架构定义了与组织业务战略相协调的数据资产蓝图,以建立战略性的数据需求,并满足需求的总体设计,包括数据技术架构、数据集成架构、数据仓库和商业智能架构及元数据架构。数据架构要求在不同抽象层级、不同角度上描述组织的数据,以便更好地了解数据,帮助管理者做出决策。
(3)数据建模和设计
数据建模和设计是最早出现的数据管理知识领域之一。数据模型一般分为概念模型、逻辑模型和物料模型。建模的方法有维度建模法、面向对象的建模法、基于事实的建模法、基于时间的建模法及非关系型数据建模方法等。
数据建模不是近年来的热点,但它却是数据治理中的一个关键领域,并且随着列式数据库、文档数据库、图数据库等NoSQL数据库的发展,新型的建模技术不断涌现。
(4)数据存储和操作
数据存储和操作以业务连续性为目标,包括存储数据的设计、实现和支持活动,以及在整个数据的全生命周期中从计划到销毁的各种活动。为IT运营提供可靠的数据存储基础设施可以最大限度地降低业务中断的风险。
(5)元数据管理
元数据是描述数据的数据,可分为业务元数据、技术元数据和操作元数据。元数据是定位和查找数据的基础。元数据管理包括规划、实施和控制活动,以便访问高质量的集成元数据,包括定义、模型、数据流以及其他至关重要的信息。
(6)数据质量管理
数据质量管理包括规划和实施质量管理技术,以测量、评估和提高数据在组织内的适用性。大家都认识到数据有价值,但实现数据价值的前提是数据本身是可靠和可信的,换句话说,质量好的数据才有价值。
(7)主数据和参考数据管理
主数据是企业关键业务实体的核心共享数据,例如组织、人员、客户、供应商、物料等。参考数据是用于描述或分类其他数据,或者将数据与企业外部信息联系起来的任何数据,例如货币代码、地区代码、证件类型等。
主数据和参考数据管理是对企业核心共享数据的持续协调和维护,使关键业务实体的真实信息以准确、及时、相关联的方式在各系统之间得到持续使用。它为企业交易活动和数据分析提供了上下文,是企业业务协同和决策分析的基础。
(8)数据安全管理
数据安全管理的目的是确保数据隐私和机密性得到保护,数据不被破坏,并得到适当的访问,确保企业数据安全。降低风险和促进业务增长是数据安全管理活动的主要驱动因素。良好的数据安全管理能力不仅能节约成本,而且是核心竞争力。
(9)数据集成和互操作
数据集成和互操作的主要目的是对数据移动进行有效的管理,包括数据存储、应用程序以及与不同组织之间的数据移动和整合相关的过程。
数据集成的传输方法经历了从最初的文件批处理到实时流式数据传输等多种技术的演变过程。无论是数据治理还是数据应用,都需要关注如何将数据有效地集成并融合到一起,以提升数据资产的价值。
(10)文件和内容管理
文件和内容管理用于管理非结构化数据和信息的全生命周期,包括计划、实施和控制活动,尤其是支持法律法规遵从性要求所需的文档,例如各种纸质或电子档案、图片、音视频等多媒体文件等。
对于非结构化数据的管理一直是一个比较独立的领域,但是随着业务和技术的发展,尤其是各种大数据技术的出现,结构和非结构化数据的融合管理越来越明显。
(11)数据仓库和商业智能
数据仓库和商业智能包括计划、实施和控制等流程,用来管理决策支持数据,并使业务和管理人员通过分析报告从数据中获得价值。该技术赋能企业将不同来源的数据整合到公共数据模型中,整合后的数据模型为业务运营提供洞察,为企业决策支持和创造组织价值带来新的可能性,提高组织决策的成功率。DAMA-DMBOK2认为,数据仓库和商业智能是数据价值的提供者,而要提供数据价值离不开数据治理的支撑。