第2章
工业企业数据治理概述
对工业企业来说,数据越来越重要,但大部分企业的数据治理水平有待提高。本书涉及数据治理的内容多、范围广,其中概念和术语众多,为了便于读者理解,避免产生歧义,并且对数据治理的内容有总体的认识,本章先简单介绍一下数据治理的相关概念及主要内容。
2.1 数据治理的相关概念和定义
1. 数据与数据管理
本书中所指的数据是指所有能输入计算机并被计算机程序处理的符号的介质的总称,是用于输入计算机进行处理,具有一定意义的数字、字母、符号和模拟量等的通称,是组成信息系统的最基本要素。
数据管理的概念是伴随20世纪80年代数据随机存储技术和数据库技术的使用,计算机系统中的数据可以方便地存储和访问而提出的。2015年,国际数据管理协会在《DAMA数据管理知识体系指南(原书第2版)》中将其扩展为11个管理职能,分别是数据治理、数据架构、数据建模与设计、数据安全、数据存储与操作、数据集成与互操性、文件和内容管理、参考数据和主数据管理、数据仓库和商务智能、元数据管理、数据质量管理。
数据管理是数据资源获取、控制、价值提升等活动的集合,具体指通过规划、控制与提供数据和信息资产职能,包括开发、执行和监督有关数据的计划、政策、方案、项目、流程、方法和程序,以获取、控制、保护、交付和提高数据和信息资产价值。
2. 狭义数据治理与广义数据治理
(1)数据治理。
不同的机构对数据治理的定义不一样。
IS/IEC、TRO38505-2:2018对数据治理的定义:数据治理是关于数据采集、存储、利用、分发、销毁过程的活动的集合。
GB/T4960.5-2018对数据治理的定义:数据治理就是数据资源及其在应用过程中相关管控活动、绩效和风险管理的集合。
国际数据管理协会(DAMA)对数据治理的定义:数据治理是指对数据资产管理行使权力和控制的活动集合(规划、监督和执行)。
国际数据治理研究所(DGI)对数据治理的定义:数据治理是一个通过一系列信息相关的过程来实现决策权和职责分工的系统,这些过程按照达成共识的模型来执行,该模型描述了谁能根据什么信息,在什么时间和情况下,用什么方法,采取什么行动。
(2)狭义的数据治理。
狭义的数据治理指数据资源及其应用过程中相关管控活动、绩效和风险管理的集合,保证数据资产的高质量、安全及持续改进。在本书第6章“数据管控”中所谈的数据管控即取其狭义。狭义的数据治理的驱动力最早源自两个方面:
内部风险管理的需要,风险包括数据质量差影响关键决策等。
为了满足外部监管和合规的需要,比如萨班斯-奥克斯利法案、巴塞尔I/巴塞尔协议、健康保险流通与责任法案(HIPAA)等。
但随着全球越来越多的企业认识到信息资产的重要性和价值,在过去几年中,数据治理的目标也在发生一些转变。除满足监管和风险管理外,如何通过数据治理来创建业务价值备受关注。
(3)广义的数据治理。
广义的数据治理的含义大于狭义数据治理,包括数据管理和数据价值“变现”,具体包含数据架构、主数据、数据指标、时序数据、数据质量、数据安全等一系列数据管理活动的集合。
本书取“广义的数据治理”的概念,后面所用到的“数据治理”的概念都指广义的数据治理。
3. 数据资产与数据资产管理
(1)数据资产。
数据资产是指由企业拥有或者控制的,能够为企业未来带来经济利益的,以物理或电子的方式记录的数据资源,如文件资料、电子数据等。在企业中,并非所有的数据都构成数据资产,数据资产是能够为企业产生价值的数据资源。在这个定义中包含3个要素。
拥有或者控制:除企业内部的数据外,通过各种渠道合法获取的外部数据也属于企业数据资产。
带来经济价值:体现了资产的经济属性,未来能给企业带来经济利益。
数据资源:数据资产包括各种以物理或电子方式记录的数据、软件、服务等。
(2)数据资产管理。
数据资产管理是指规划、控制和提供数据及信息资产的一组业务职能,包括开发、执行和监督有关数据的计划、政策、方案、项目、流程、方法和程序,从而控制、保护、交付和提高数据资产的价值。数据资产管理需要充分融合业务、技术和管理,以确保数据资产的保值、增值。
2.2 数据的分类
工业企业数据的分类维度有很多种,目前业内还没有特别通用的标准,通常可以按照数据对象划分,也可以按照数据结构来划分,还可以按照数据库类型来划分,等等。下面介绍的是常见的4种分类方式。
1. 按照数据对象划分
按照数据对象,工业企业数据可以被分成如下5类。
(1)参考数据。
参考数据是指对其他数据进行分类和规范的数据,如国家、地区、货币、计量单位等产业通用的数据及各产业特色基础配置数据。为了简化,有的企业称这类数据为配置型主数据,也有的企业称这类数据为通用基础类数据。它是相对稳定、静态的数据,基本上不会变化,往往通过系统配置文件给予规范并固化在信息管理系统中。
(2)主数据。
主数据是指满足跨部门业务协同需要的、反映核心业务实体状态属性的基础信息。
主数据是用来描述企业核心业务实体的数据,是企业核心业务对象、交易业务的执行主体,是在整个价值链上被重复或共享应用于多个业务流程、跨越多个业务部门和系统、高价值的基础数据,也是各业务应用和各系统之间进行数据交互的基础。从业务角度看,主数据是相对固定、变化缓慢的,但它是企业信息系统的神经中枢,是业务运行和决策分析的基础,如供应商、客户、企业组织机构和员工、产品、客户、供应商、物料等主数据(见《数据资产管理实践白皮书(4.0版)》)。
(3)业务活动数据。
业务活动数据(又称交易数据)是指在业务活动过程中产生的数据,是企业日常经营活动的直接体现,也是围绕主数据实体产生的业务行为和结果型数据,如采购订单、销售订单、发票、会计凭证等数据。业务活动数据存在于联机事务处理系统中(OLTP系统),具有瞬间生成和动态的特点。
(4)分析数据。
分析数据(又称统计数据、报表数据或指标数据等)是组织在经营分析过程中衡量某一个目标或事物的数据,一般由指标名称、时间和数值等组成。
(5)时序数据。
时序数据是指时间序列数据。它是按时间顺序记录的数据列,在同一个数据列中的各个数据必须是同口径的,要求具有可比性。在工业企业中,实时数据是时序数据的一种,如设备运行监测类数据、安全类监测数据、环境监测类数据。
2. 按照数据的存储形式划分
按照数据的存储形式,工业企业数据可以被分为结构化数据、非结构化数据、半结构化数据(下面的名词解释来自《管理科学技术名词》)。
(1)结构化数据。
结构化数据是指数据元素之间具有统一且确定关系的数据。它由明确定义的数据类型组成。结构化数据的一般特点是数据以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的。结构化数据的分析更为便利,且存在成熟的分析工具。
(2)非结构化数据。
非结构化数据是指数据元素之间没有统一和确定关系的数据。它是具有内部结构,但不通过预定义的数据模型或模式进行结构化的数据,如各种格式的图片、视频等。非结构化数据占企业全部数据的80%以上,但直接分析非结构化数据得有很强的专业性。
(3)半结构化数据。
半结构化数据是指数据元素之间的关系介于结构化数据和非结构数据之间的数据。它是非关系模型的、有基本固定结构模式的数据,例如日志文件、XML文档、JSON文档、E-mail等。
3. 按照数据库的类型划分
按照数据库的类型,工业企业数据可以被分为关系型数据库、非关系型数据库、图数据库、时序数据库。
(1)关系型数据库。
关系型数据库是采用关系数据模型的数据库系统。关系数据模型实际上是表示各类实体及其之间联系的由行和列构成的二维表结构。一个关系数据数据库由多个二维表组成。表中的每一行为一个元组(或称一个记录),每一列为一个属性。属性的取值范围被称为域。对关系型数据库进行操作通常采用结构化查询语言(SQL)(见《管理学大辞典》)。
(2)非关系型数据库。
非关系型数据库是对不同于传统的关系数据库的数据库管理系统的统称。和关系型数据库相比,两者存在许多显著的不同点,其中最重要的是非关系型数据库使用NoSQL而不使用SQL作为查询语言。其数据存储可以不需要固定的表格模式,也经常会避免使用SQL的JOIN操作,一般有水平可扩展性的特征(来自维基百科)。
(3)图数据库。
图数据库是以图结构来表示和存储信息的数据库(见《计算机科学技术名词》)。
(4)时序数据库。
时序数据库是指时间序列数据。它是按时间顺序记录的数据列,在同一个数据列中的各个数据必须是同口径的,要求具有可比性。时序数据可以是时期数,也可以是时点数。
4. 按照权属类型划分
按照权属类型,工业企业数据可分为私有数据和公有数据。
(1)私有数据。
私有数据是指有明确归属的数据,归属方为可决定数据使用目的的自然人、法人或其他组织。如私人数据、企业数据等。
(2)公有数据。
公有数据指具有公共财产属性且可被公众访问的数据,如天气数据、人口数据等。
2.3 数据治理的顶层架构
企业中不同层级的人对数据治理的关注点不一样,因此各自的视图也不一样。下面从管理者视图来看数据治理的顶层架构。
数据治理的管理者视图可以概括为“五域模型”,即管控域、过程域、治理域、技术域、价值域,如图2-3-1所示。
图2-3-1 五域管理视图
企业在开展数据治理之前,首先要基于企业战略和IT战略制定数据治理的战略目标,在明确战略目标的基础上再细化“五域模型”内容。
(1)管控域:在数据治理战略指导下制定企业数据治理组织,明确组织的责、权、利、岗位编制及技能要求。一般在大中型企业中会设立由企业高层领导及相关专家组成的数据治理委员会,审批数据治理相关的重大决策,并制定数据治理的相关制度、流程,建立数据认责及绩效考核机制,以支撑数据治理活动。
(2)治理域:是数据治理的主体,明确数据治理的对象和目标。根据数据资产的构成,企业数据治理又分为主数据治理、交易数据治理和数据指标治理。
(3)技术域:数据治理的支撑手段,提供数据治理所需的数据架构、治理工具平台,包括元数据管理、主数据管理、数据指标管理、数据模型管理、数据质量管理、数据安全管理等功能模块。
(4)过程域:是数据治理的方法论。数据治理过程包括评估与分析、规划与设计、实施的PDCA循环(即Plan、Do、Check和Action循环,也称戴明环)。在评估与分析阶段,要评价现有数据治理的成熟度、风险及合规性,业务对数据治理的需求。在规划和设计阶段,要明确数据治理的目标和任务,制定数据治理的相关制度和流程,设计数据标准、数据模型、数据架构及数据治理的实施路径。在实施阶段,要制定数据治理的相关制度、流程细节,选择合适的数据治理工具并通过定制化开发来满足数据治理要求。
(5)价值域:数据治理的目标就是通过对数据资产的管控,挖掘数据资产的价值,并通过数据的流动、共享、交易,实现数据资产的变现。具体包括以下3个方面:
数据价值:对数据价值进行财务建模及数据价值评估的过程。
数据共享:通过实现信息整合和分发机制,支持跨业务、跨部门、跨行业、跨企业的信息流通和共享。
数据变现:通过数据的共享和交易,将数据转变成财务意义上的资产。
2.4 数据治理的核心内容
完整的数据治理包括战略、组织、制度、流程、绩效、标准、工具及数据价值、数据共享、数据变现。其中数据价值、数据共享及数据变现等不是本书的讨论重点,这里就不赘述了。
1. 战略
数据治理的首要任务是制定数据治理战略目标,否则缺乏目标和行动纲领,数据治理难以开展。企业的信息化是为了服务于业务,因此,企业的信息化战略必须匹配业务战略。数据战略是信息化战略的重要组成部分,企业要清晰地定义企业数据治理的使命、愿景,中长期目标及行动计划,用以指导企业数据治理。企业数据战略一般根据IT战略的制定而制定,随着IT战略的修订而修订,由企业的信息化负责人及业务负责人共同主导制定。
2. 组织
建立合适的数据治理组织是企业数据治理的关键。数据治理的组织建设一般包括组织架构设计、部门职责、人员编制、岗位职责及能力要求、绩效管理等内容。
3. 制度
企业的数据治理必须要有相关制度,否则无法可依,再好的技术工具也没有用。因此,建立完善的数据治理制度很重要。企业的数据治理制度通常根据企业的IT制度的总体框架和指导原则制定,往往包含数据质量管理、数据标准管理、数据安全管理、数据绩效管理等制度,以及元数据管理、主数据管理、交易数据管理、数据指标管理等办法及若干指导手册。
4. 流程
制定数据治理的流程框架及流程也是数据治理的重要工作。数据治理流程主要包括从数据的生产、存储、处理、使用、共享、销毁全生命周期过程中所遵循的活动步骤,以及元数据管理、主数据管理、数据指标管理等流程。
5. 绩效
要使数据治理的体系运转好,必须要有好的激励体系。数据绩效管理包括数据管理指标、数据认责机制、数据考核标准、数据管理的奖惩机制,以及绩效管理过程的一系列活动集合。
6. 标准
数据标准是实现数据标准化、规范化的前提,是保证数据质量的必要条件。数据标准一般分为元数据标准、主数据标准、交易数据标准、数据指标标准、数据分类标准、数据编码标准、数据集成标准等内容。数据标准管理是规范数据标准的内容、程序和方法的活动,分为标准制定、标准实施和控制、标准修订等。
7. 工具
数据治理管理工具包括数据架构工具、元数据管理工具、数据指标管理工具、主数据管理工具、时序数据管理工具、数据交换与服务工具、质量管理工具和安全管理工具等。
本章精要
本章主要介绍了数据治理相关的重要概念和内容,其中简要介绍了数据治理的核心内容,让读者对这些概念有清晰的了解,并对数据治理内容框架有初步的认识。