数据血缘分析原理与实践
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.2.6 与数据血缘相关的概念

1.数据关系

从数据间的从属关系来看,数据关系分为线性关系和非线性关系,其中非线性关系又分为逻辑结构树关系和图关系,如图1-6所示。

图1-6 数据关系

1)线性关系(线性结构):在一个线性表中,数据元素的类型相同,样式相同。在数据结构中常用的线性表有栈、队列、双队列、数组、串等。例如,字符串是线性表,表中数据元素为char型;学生信息表也是线性表,表中数据元素为文本类型。所以具有线性关系的线性表的定义如下。

线性表是具有相同数据类型的由n(n≥0)个数据元素组成的有限序列,通常记为(A1A2,…,Ai-1AiAi+1,…,An),其中n为表长,n=0时称为空表。

表中相邻元素之间存在顺序关系。将Ai-1称为Ai的直接前趋,Ai+1称为Ai的直接后继。A1是表中的第一个元素,它没有前趋,An是最后一个元素,没有后继。

2)非线性关系:分为逻辑结构树关系和图关系,这种情况下一个节点可能有多个前趋或者多个后继。

树的分叉点称为节点,起始点为根节点,任意两个节点间的连接称为树枝,节点下的分枝称为树叶。节点的前趋为该节点的“双亲”节点,节点后继为该节点的“子女”节点,同一节点为“兄弟”节点。本书研究的数据血缘主要包含双亲节点和子女节点,也称为有直系关系的节点,其中直系关系可以是直接或者间接的。

不同类型的数据血缘关系,都能体现数据的提供方和需求方,但侧重点不同。线性关系可以直观地表示出核心节点的数据血缘关系,非线性关系可以更完整地表现出数据节点的扩散情况。通过不同层级的血缘关系,可以很清楚地了解数据的迁徙流转过程,为数据价值的评估、数据的管理提供依据。

2.数据分类

数据分类是指出于安全和合规目的,根据数据的特征将其分配到不同的类别。例如根据数据的敏感程度对数据进行分类,可以分为个人、专有、机密或公共数据。这样做可以将需要更高级别安全性和更严格访问控制的数据集与其他数据集分开。

数据血缘提供有关数据集的信息,通过数据血缘,可以更容易理解和分析数据从属,知道数据来源及数据流转过程,这样将高效地协助用户对数据进行分类整理。

3.数据出处

数据出处有时被认为是数据血缘的同义词,或者被视为更狭隘地关注数据的起源,包括源系统及其生成方式。但数据血缘范围更广,不仅包括数据出处,还包括数据流转的过程和数据终端的消费场景。在这种情况下,数据出处可以理解为数据血缘的一部分,为数据血缘提供有关数据来自何处及修改数据的标准规则。

4.知识图谱

知识图谱(Knowledge Graph),如图1-7所示,在图书情报界将其称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列不同的图形,用可视化技术描述知识及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。知识图谱可帮助企业自动构建行业图谱,摆脱原始的人工输入,可以应用于智能搜索、文本分析、机器阅读理解、异常监控、风险控制等场景,实现真正的智能和自动。

图1-7 知识图谱

知识图谱与数据血缘拥有很多相似之处,例如,两者都是利用可视化技术对结构关系进行呈现,同时为用户找出更加准确的信息,做出更全面的总结并提供更有深度的信息,体现了溯源的特性。特别是知识图谱中的点(Node)与边(Edge)的关系,其实就是数据血缘中元数据与血缘关系。所以从很大程度上来说,知识图谱和数据血缘所涉及的数据模型(图数据模型)和技术框架都是类似的。不同之处在于,数据血缘的技术更多运用在技术开发层面,而知识图谱是学术研究层面的产物。数据与知识两者之间的定义也不一样,知识是基于数据定制加工而生产出来的。所以数据血缘的良好构建有利于企业知识图谱的最终形成,而知识图谱是数据血缘分析最终的产物。