洞见数据之密
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

知识图谱中的数据噪声清除及知识推理构建

知识图谱由节点和边构成,提供了从“关系”角度分析问题的能力。在SCOPA中,知识图谱是关系挖掘的载体,它将数据抽象成实体、关系和事件,利用包括属性图(Property Graph)在内的混合结构组织数据,点代表实体,边代表关系,再把各个实体通过带有属性的关系联系起来。

但同时,知识图谱中还存在着对关系挖掘最终结果形成影响的数据噪声。其出现原因在于数据错误、数据缺失,或大量的数据冲突和数据冗余。处理错误数据最简单的办法是在数据治理的过程中做离线的规则过滤。例如,对于结构化数据的冲突,可以在治理过程中设置治理规则和增加数据优先级的概念,而对于非结构化数据,可采用自然语言处理中的实体消歧分析技术。另外,在SCOPA中,数据支持溯源与多版本,机器暂时无法处理的噪声会在用户分析的时候留给用户进行判断。

此外,在清除数据噪声之外,关系挖掘还有一项重要能力是发现已有结果中可能隐含的新知识,即利用算法完成对知识的推理。知识推理以知识图谱的构建为基础,SCOPA的目标是通过数据挖掘,机器学习等方法,让机器学会人类的推理过程,使用户从海量而繁琐的业务数据中解脱出来,比如公安领域的团伙自动发现,重大事件预警都有知识推理的过程。另外,知识推理还可以用于发现实体间新的关系的预测与发现。