1.2.1 什么是数据和数据管理
数据是记录并保存客观事件的一种符号,是客观存在的资源。数据就像空气一样无处不在。按覆盖量来分类,数据可以分为以下几类:基础数据、参考数据、主数据、事务数据、指标数据。准确、及时、完整的数据可以看作一种资源,数据资源越来越受到人们的重视。
2020年4月9日,中共中央、国务院发布了《关于构建更加完善的要素市场化配置体制机制的意见》,意见中将数据定义为一种新型生产要素,与土地、劳动力、资本、技术要素并列为五大生产要素。随着国家政策的逐步落地,数据作为一种组织资产已经势在必行,数据已经成为每家企业在未来必须要拿下的高地,管理好数据资产的企业才能应对未来市场的变化,才会更有市场竞争力。
数据管理是伴随着信息化到数字化进程发展推进的。在企业未普及计算机时,早期的数据都是使用线下文本记录留存的,数据查询使用不仅费劲而且容易丢失。1951年第一批计算机开始商业化生产,计算机从实验室出来并走向社会,由单纯为军事服务逐步转变成为社会公众服务。政府、企事业单位的数据逐步由线下记录转为线上存储,但此时更多的是以简单的数据登记运算和保存为目标,各类数据依旧相互独立,这一阶段属于信息化发展阶段。当线上数据逐步增加,现代企业管理精细化逐步形成之后,对数据管理提出更高的需求,数据不仅要记录,还要在组织内部共享,数据之间要相互调用,以提升组织内部效率,这就是数字化发展初级阶段。随着一些先进的国际企业管理思维及流程逐步被国内企业应用,人们认识到数据流通的真正价值。比如员工数据,在人力部门收集后,就可以在企业内被不同的部门调取使用,无须重复收集登记。
如今,数据的价值日益凸显,我们需要更多的技术来对数据进行分析。如果只停留在粗放式的使用上,将无法满足企业管理要求。我们可以通过不同的渠道收集客户数据,例如网站搜集、线下登记、市场活动推广等,通过对这些客户数据收集渠道进行分析,能够有效定位出客户的运营方式:精细化管理每一位潜在客户的信息来源,降低企业无效成本,提高企业前期的推广效率,这就是数据精细化管理的价值。而这一切如何高效及标准化落地,这就是本书的重点内容了,即企业数据管理的精细化思维和方法,以及企业数据血缘管理。
随着越来越多的企业将数据纳入资产管理范畴,企业势必需要对数据进行精细化管理。对数据进行精细化管理,首先就是梳理清楚数据与数据之间的交错关系。数据通过生产、转换、流通和加工,又会生成新的数据,这种变化复杂无序。针对这些错综复杂的数据,在管理的过程中经常会遇到以下问题。
❑表中的数据是从哪里来的?
❑一些需求发生变化,需要对源数据表进行修改,但修改哪些表?修改表时会对哪些应用造成影响?
以上问题归纳起来,体现在数据管理中主要涉及以下3个难点。
❑数据对象间的关系难以展现。用于管理数据的数据中台按照数据主题域可分为基础层数据主题域、公共层数据主题域、应用层数据主题域3层。各层主题域的数据之间相互关联,纵横交错,但管理者无法直观地看到各主题域的数据之间的演化过程,只能看到数据最后的静态结果,无法知道整个数据加工过程,因而很难对数据信服。
❑数据质量可追溯性。数据质量问题的产生,需要逐级查询,特别是针对多个元数据加工出来的复杂数据,如一个数据是基于多个元数据加工形成的,若其出现问题,我们很难直观快速地判断出具体是哪一个数据产生的问题。
❑数据影响定位。对于大型企业来说,随着企业数据应用的深入,自身数据系统可能有上百个,当数据源发生变化时,很难快速评估数据源的变化会导致哪些下游系统受到影响,因为我们很难快速找出这些数据覆盖的业务场景范围,从而提前做出数据预测并给出解决方案。
要解决上述数据管理问题,就需要具备数据管理精细化的思维和专业能力,数据血缘的梳理以及数据血缘工具的应用能很好地提升这方面的专业能力。数据血缘核心要求是梳理清楚数据与数据之间的关系、从数据生产到消费全过程的关系,形成一张数据血缘关系网。梳理数据血缘时我们通常采用手动采集与自动化采集的方式得到血缘信息。业务人员要梳理清楚数据的产生逻辑、数据的使用逻辑以及业务线之间的关联关系,BI分析师要清晰地知道数据字段的引用及对应关系。
数据作为新型生产力要素已经走上新时代的舞台,数据对于企业的重要性日益凸显,这要求我们必须想方设法深刻研究数据与数据之间的关系,进而极大提升我们对数据的利用率。基于数据血缘的理念,研究数据从哪里来,经过怎样的加工,最终形成什么样的数据,进而得到数据之间的关系,我们称这种关系为数据血缘关系。数据血缘关系和一般的数据关系有着本质的不同,它主要是指数据在产生、处理、流转到消亡的过程中,数据之间形成的一种类似于人类社会血缘关系的数据关系。