3.5.1 数据治理
知识源于数据,是抽象、精炼后服务于业务认知的信息形态。为了更好地理解与设计知识治理方法,这里首先对数据治理的相关方法论进行介绍。
数据治理的基础和核心是数据的资产管理(Data Asset Management,DAM)。图3-31展示了对数据治理框架的国标定义。数据的资产管理指规划、控制和提供数据及信息资产的一组业务职能,包括开发、执行和监督有关数据的计划、政策、方案、项目、流程、方法和程序,从而控制、保护、交付和提高数据资产的价值。而数据治理需要围绕企业的战略目标,在内外部环境中通过建设数据管理体系与数据价值体系,推动统筹与规划、构建与运行、监控与评价、改进与优化的流程迭代。
图3-31
数据模型是数据治理中的重要部分。企业通过建设合适、合理、合规的数据模型,能够有效优化存储分布和提升使用率。数据模型在整体上包括概念模型、逻辑数据模型和物理数据模型。数据模型是数据治理的关键与重点。知识图谱的知识体系也是一种数据模型,是将知识与数据通过符号与关联进行聚合的数据模型。
知识图谱符号与图拓扑结构结合的数据结构可以有效存储企业数据表的信息、表之间的关联结构,形成对数据血缘图谱的有效管理。因此,企业可以基于业务已有数据模型的概念模型、逻辑数据模型,根据业务场景需求转化为业务知识体系。比如可以基于国家电网的CIM模型,根据变电检修的场景需求,快速转化为电网设备检修知识体系。建设类似OnTop、D2R等结构化的数据映射工具,再用其将企业数据仓库的已有业务数据模型进行映射与转化,是高效构建企业业务知识体系的方式之一。
数据模型包含三部分:数据结构、数据操作、数据约束。
• 数据结构:数据模型中的数据结构主要用来描述数据的类型、内容、性质及数据间的联系等。知识图谱本体、知识体系设计也是用于定义知识的数据结构,开发人员在本体中定义了知识图谱的知识类型、性质及边之间的关系。数据结构是数据模型的基础,数据操作和数据约束是建立在数据结构之上的进阶描述,不同的数据结构有不同的数据操作和数据约束。
• 数据操作:数据模型中的数据操作主要用来描述相应的数据结构上的操作类型和操作方式。在知识图谱领域,数据操作主要聚焦于对实体、关系的读取、增删、更新等操作。
• 数据约束:数据模型中的数据约束主要用来描述数据结构内的语法、词义联系、数据之间的制约和依存关系,以及数据动态变化的规则,以保证数据的正确、有效和兼容。而在知识图谱中,主要以知识体系、三元组、图拓扑结构的形态对数据进行约束。
图3-32展示了业内专家总结的数据治理体系,其中,数据治理包括统筹规划、管理实施、稽查稽核、资产运营4个步骤。
图3-32
为了解决业务知识体系建设中应用数据缺失、数据指标不准、价值难以衡量等问题,企业可以参考图3-32所示的数据治理体系建设知识治理体系。知识是经过处理、识别、抽象化后可用于逻辑判断的数据。知识体系的本体建模过程和数据治理理论的元数据建立过程非常相似,因此,知识治理可以参考数据治理经验。
知识源于数据,是数据抽象、精炼后服务于业务认知的信息形态。在业务应用中,知识体系建设与数据治理中的元数据管理相似。但知识既贴近业务需求,又更加贴近人的认知与决策过程。因此,知识治理与数据治理相比,需要额外重视业务需求梳理与知识价值评估。知识治理需要围绕业务认知提升、认知协同的目标进行知识的统筹规划、管理实施、稽查稽核、资产运营。图3-33展示了知识治理体系。知识治理由业务流程梳理、知识体系管理、实体数据管理、知识数据生命周期、知识数据架构、知识数据标准、知识数据安全和知识数据质量等工作组成。
图3-33
图3-33展示的知识治理体系在实践中会遇到多方面的挑战。
• 在知识来源方面,企业知识来源多样化,在命名、定义、逻辑关联方面都可能存在冲突。比如不同专家对设备故障的原因预估、逻辑推理、解决方案都会有所差异。另一方面,知识与数据一样,通常来源于不同的业务方,存在所有权分割、数据孤岛的问题。
• 在知识标准方面,企业的业务场景多样,而对于知识标准、数据标准,通常涉及多个建设方,因此建设流程可能分散且不同步,缺乏统一的知识体系标准。
• 在知识存储方面,不同的知识存储更新成本不一致,知识对于业务的价值会随着时间和场景而变化,需要进行知识入库、知识更新、知识归档等知识存储生命周期管理工作。
• 在知识计算方面,不同业务模块的业务逻辑对于知识的推理计算不一致,导致结果有偏差。同时,由于知识图谱的符号与图拓扑结构的逻辑层次复杂,因此知识计算的质量评估难度高,问题定位异常困难。
• 在知识价值方面,需要构建知识的评估维度和评估周期。知识价值是推动知识体系迭代的核心动力,然而在实践中对知识的评估相当具有挑战性。
• 在知识安全方面,不仅需要保证知识和数据的存储物理安全,还需要符合法规的约束。比如关于用户画像知识体系,就需要符合用户隐私安全相关法律的规定。
知识治理需要组织业务应用方、业务专家、知识图谱开发人员、数据所有方,将业务需求、事理知识体系、实体状态数据基础有机串联起来,形成统一的认知。企业需要通过系统化、产品化知识图谱管理平台进行知识治理。
比如,在用户画像知识图谱的建设过程中,企业可以集成知识图谱管理平台、数据管理平台和用户数据中台,构建知识增强的用户数据管理能力,推动用户画像知识体系建设,形成对数据和知识的统一治理。
在知识治理体系中,知识的价值通常决定了业务重视的程度,是知识治理迭代的核心动力,那么知识的价值有哪些特点呢?
整体来讲,知识的价值有以下4个特点。
(1)知识的价值受应用领域的影响。知识在不同领域的形态结构与应用方法不同,因此在不同的领域,知识的价值会有显著差异。在工业制造、医疗医药领域,需要在少量实体上应用深度的知识,因此知识的单体(单个三元组)价值较高。而在广告营销、金融风控等领域,需要在大量实体上应用简单的知识,因此知识的单体价值较低。
(2)知识的价值受上层业务认知应用与下层数据价值的影响。知识处于上层业务认知应用与下层数据之间,因此知识的价值是受认知应用与数据自身的价值影响的。知识的价值正比于认知应用的价值,比如能为企业赚更多钱的业务知识的价值一定高于不赚钱的业务知识。同时,知识的价值正比于数据的价值,比如对竞品情报需要花费巨大的人力和物力才能获取,而以此情报推理生成的知识的价值会正比于数据获取成本。
(3)知识的价值受知识应用环境特性、时间和传播的影响。在环境方面,知识在博弈场景和合作场景中有不同的特性。知识在金融投资、政治军事等博弈场景中,是一种重要的战略资源。通常有价值的知识覆盖的人数越少,决策的收益优势越大、价值越高。比如只有A基金公司获得了某个高价值公司近期缺钱、需要融资的情报知识,那么A基金公司抢先进行投资,就会获得先发优势。在时间方面,当知识以专利形式存在时,时间领先性越高,价值越高。在传播方面,知识被传播与应用得越广、价值越高。比如在品牌宣传、文学、艺术等场景中,知识被传播得越广,受认可度越高、知识的价值就越大。
(4)知识的价值具有累积性。比如知识的受众越多,知识被使用得越多,知识能被扩散的范围就越广。同时,知识可以通过推理和挖掘来扩展生产,因此已累积的知识越多,能够推理和挖掘的新知识也就越多。知识可以作为价值不断累积的资产,为企业持续创造价值。
如上所述,知识的价值特性复杂,为企业知识价值评估体系的建设带来巨大的挑战。那么应如何构建一个企业可用的知识价值评估体系呢?
图3-34总结了一套知识价值评估体系。对知识价值的评估可以从知识的质量、需求度和收益度等角度来衡量。在企业业务实践中,数据流经过知识图谱构建系统转化为知识图谱,知识图谱通过知识图谱管理平台系统化服务于上层的用户画像、推荐、企业经营等认知应用。因此,企业可以从知识覆盖度与知识质量、业务应用对知识的访问热度、A/B测试效果对比等角度建立知识价值评估体系。
图3-34
图3-35展示了知识在不同生命周期中的管理方法。在业务实践中,知识的生命周期可以被区分为在线服务阶段、维护阶段、归档阶段。从成本管理角度,企业需要根据知识的价值来决定知识服务的在线度,优化并提升高价值知识的服务能力,对低价值知识进行维护或者归档处理。
图3-35