4.3.2 知识融合系统的架构
在知识融合系统中,企业需要对分散、歧义的知识图谱的知识体系、知识实例进行实体链接、属性链接等相关工作。为了提高知识融合的准确率,知识融合模型通常需要基于不同知识的属性值、来源描述、知识上下文等多方数据,进行数据分通、匹配、融合、审核等处理,以生成融合的知识体系与知识实例。
图4-11展示了知识融合系统的整体架构。知识融合系统需要基于标准Schema与标准实体库,与其他来源的知识体系库与实体库进行指导、更新、补充、计算、新增等工作,完成模式对齐与实例对齐任务。为了完成上述任务,知识融合系统需要建设数据分桶、匹配算法库及融合策略。
(1)数据分桶:指对所有多源实体数据的粗聚类,一般基于名称相似度或者实体特有的属性值进行数值分割或者聚类操作。在企业实践中,数据分桶模块通常需要基于企业的数据库或者大数据计算平台进行脚本开发。
(2)匹配算法库:指对知识体系、知识实例进行搜索匹配所需的算法库的管理。常用的匹配算法包括基于规则和传统特征的算法、基于图结构的算法及基于向量表示的算法。图4-11对上述匹配算法中的常见算法进行了展示,比如基于向量表示的算法包括词向量、知识表示向量、网络表示向量及图神经网络。
图4-11
(3)融合策略:指对已搜索、匹配、关联的知识模式与知识实例根据规则策略进行融合。融合策略需要具备冲突检测、置信度计算、真值计算和人工审核等能力。其中,真值计算可以通过去重全保留、投票模型、平均模型、加权模型等来获得最优的知识模式与知识实例真值。
图4-12展示了知识融合的流水线。流水线主要由冷启动数据接入与增量数据接入组成。
(1)在第1阶段,需要完成冷启动数据,也就是单一原始知识库的内部融合。具体实现可分为三步:①将可靠性较高、数据较完整的知识库作为冷启动知识库;②对接入的知识库进行模式层和实例层的对齐,输出训练模型、融合策略、入库标准;③进行人工审核,输出知识标准库。
(2)在第2阶段,需要完成增量数据,也就是新增知识库的连接、融合。具体实现可分为三步:①选取增量知识库进行数据接入;②对新增概念、实体、属性等运用向量化检索模型进行召回,并在重排模块根据策略重新排序、打分,输出可供融合的候选概念、实体、属性的排序;③进行人工审核,选择知识新增或知识融合更新。
图4-12
在知识融合的实践中,知识融合的难点有三个:①数据源多样,不能保证质量;②存在长尾知识,即在融合时缺乏可供融合判断的信息;③大规模、动态的数据融合缺乏高质量的标准。比如在知识融合的实体对齐场景中,开发人员需要根据实体的属性相似度来判断两个实体能否合并。而在实践过程中,相似属性往往较为稀疏,因此需要添加额外的实体信息来提升属性的维度,比如实体来源的网络、百科的超链接、数据库血缘关系等。
由此应对的知识融合方案有:①对数据、真值采用质量估计;②采用预训练模型,引用外部知识库或利用知识迁移修正模型;③采用人工审核流程,人工审核可以保证质量,但会降低知识融合效率。
那么,在企业业务实践中,如何对用户域、物联域、企业域的知识图谱的知识体系层与知识实例层进行知识融合呢?