3.1.2 知识体系建设的方法
知识体系设计的业务目标是面向业务需求、事理知识和业务实体设计知识体系,以此将满足业务需求所需的知识存储在知识图谱里,并通过认知智能应用提高人员对业务状态的认知与决策能力。企业认知智能转型所需的企业全域知识体系示例如图3-2所示。
图3-2
知识图谱具有抽象存储与信息关联的特性,知识图谱的实体、关系、属性等以语义抽象的符号来表示知识与知识、数据与知识的物理或者逻辑关系。知识图谱,既可以让人类理解,又可以让机器高效利用。人类专家可以通过知识图谱,对经验进行存储、转化和分享。而知识图谱可以存储海量文本、数值和图像等异构数据及数据之间的复杂关联关系,使机器可以构建规则推理、统计推理、深度学习推理等知识推理能力。
因此,如图3-3所示,业务知识体系建设框架包含三个领域,需要业务人员、业务专家与知识图谱开发者的共同参与。业务专家需要对业务人员的需求进行总结,梳理满足需求所需的专业知识与数据。知识图谱开发者需要理解业务需求,了解知识与数据的来源,与业务专家共同设计并迭代面向业务需求的知识体系。通过知识体系的建设,业务需求被抽象为需求概念域,专家知识被转化为事理知识域,而海量的用户、设备、商品等实体状态数据被映射为实体状态域。
图3-3
(1)需求概念域的建设。通过知识体系的建设,可以将业务需求抽象为需求概念域。需求是人可以认知的抽象概念,需求概念之间通常会相互关联或者与事理知识、实体状态等关联。因此通过知识图谱,可以有效地对需求进行抽象表达和展现,并与事理知识、实体状态进行逻辑关联。比如“对宝宝出行商品有兴趣的用户”就可以作为业务需求的概念实体节点。需求概念域的知识体系建设主要由业务需求体系梳理、需求关联方管理、需求实例化建设组成。在需求概念域的知识体系建设中,需要组织业务需求方和生产方进行统一沟通,将各自的认知拉通为需求概念域。在企业的具体实践中,对企业产品功能需求体系的梳理就是典型的场景。为了解决业务场景中的需求痛点,产品经理会规划产品的需求及功能体系,从业务需求场景出发,将需求抽象为不同的产品功能模块。不同的产品功能模块又分为多级子功能模块,在每个功能模块中都有场景的需求功能描述。如果把知识图谱作为一个产品,那么需求概念域的知识体系设计就如同产品的需求体系设计。
(2)事理知识域的建设。围绕需求概念域,业务专家需要将解决问题所需的专业知识体系梳理为事理知识域。图3-4展示了企业全域知识体系建设示例,事理知识域的知识图谱可以是营销场景中的标签筛选规则知识。比如构建<中型车广告,第一投放规则,小孩年龄大于5岁且近期有访问SUV品类的用户>,事理知识域体系就可以被定义为<业务广告类型,规则类型,标签筛选条件>。通常既可以通过人工梳理与机器半自动(或自动)挖掘相结合的方式建设事理域的知识体系,也可以通过参考开放知识图谱的知识体系来加速建设事理知识域体系,常见的来源包括Schema.org、DBpedia、Wikipedia、大词林、百科网站等。开发者可以参考网站的XML树体系,通过DOM解析的方式获取开放域知识体系。开放域知识体系可以对企业业务事理知识域进行补充,降低构建成本。
图3-4
(3)实体状态域的建设。企业业务专家和知识图谱开发人员可以将业务实体类目、状态数据建设为实体状态域的知识图谱。实体状态域的知识体系建设需要在充分考虑实体状态数据体系、数据关联及知识关联的基础上,利用知识图谱符号与图的特性进行本体知识体系设计。在实体状态数据体系方面,实体状态域的知识体系设计与数据治理的元数据设计方法相近,需要基于业务场景中的业务目标、数据血缘进行设计。而充分利用知识图谱的特性相当有挑战性:从符号逻辑特性角度,知识图谱常见的逻辑结构有归属、因果、关联传导等,知识图谱将数据与知识之间的逻辑关联连接在一起,以此构建规则推理,因此实体状态域的数据、知识关联体系,可以从业务规则推理中反推出来;而从图特性角度,知识图谱可以从路径、图拓扑结构等多种方向来表示数据与知识,知识图谱的图从方向角度可以是双向图、有向图,而从图拓扑结构角度可以是树状图、环形图。由此可见,知识图谱的知识表示能力非常强,业务实体状态域的物理关联、时序关联、逻辑关联都可以通过知识图谱进行映射、存储。因此,实体状态域的知识体系的主要建设方法就是将业务关注的人、物、企业的属性体系与数据关联体系连接、聚合并转化为知识体系的定义结构。在企业级业务实践中,可以通过企业数据仓库的数据字典映射快速构建实体状态域。
围绕企业知识体系的建设框架,如图3-5所示,知识体系的建模方法可分为自顶向下和自底向上两种。
图3-5
(1)自顶向下。企业业务专家、知识图谱开发人员需要先对业务领域所具备的知识点、概念、术语进行顶层的认知和抽象,提炼出最具广泛性的概念;然后在此概念的基础上,对业务需求、事理知识、实体状态逐步细化,并定义更多的属性和关系,来约束并生成更为具体的类别。比如在汽车领域定义高层概念“汽车领域”和“组织”,并从“汽车领域”继承出“车型”“配件”,从“配件”扩展出“发动机”“座椅”,从“组织”扩展出“经销商”“车厂”。自顶向下的方法通常适用于对领域知识体系已有深刻洞察和全面了解的情况。
(2)自底向上。自底向上是与自顶向下逻辑相反的建模方法。当业务面临多业务场景、复杂数据体系、海量分散文本时,是难以直接在需求概念域、事理知识域和实体状态域中建立自顶向下的概念体系的。因此,业务人员和开发人员需要从分散的数据库表的数据字典、数据关联、Schema定义、属性、关系等原始信息中,通过相似性比较、搜索、聚类、歧义消除、体系融合等方式,自底向上聚合内容并抽象概念以构建知识体系。比如在构建商品知识图谱体系时,需要对商品描述文本构建层次的聚类模型聚合、抽取主题并定义品类体系。
知识体系建设工作通常需要由对业务更加熟悉的业务专家来主导,但业务专家对知识图谱及本体概念的理解和运用是常见的难题。同时,解决业务需求所需的数据与知识不仅分散,而且时常变化。因此,业务专家不仅需要有丰富的应用经验,还需要及时获取数据与知识的变化,才能有效规划知识体系。这些都直接导致业务专家无法快速地从自身业务知识、海量数据中抽象、归纳出满足业务需求的知识体系。因此,在业务实践中,无论是自顶向下,还是自底向上,通过业务专家手工建设知识体系都相当困难。那么,能否自动或者半自动地构建知识体系呢?
为了解决这个问题,需要为知识体系设计者提供相关的知识发现工具。比如在用户画像相关知识体系设计工作方面,业务运营专家可以运用用户群体洞察分析工具,获得宝马、旅行、摄影等基础标签。在此基础上,既可以人工定义“旅游一族”的抽象概念来聚合标签体系,又可以通过聚类、关联、扩展半自动地生成用户知识体系。在事理知识域的建设中,可以运用开放域知识图谱工具,通过OpenIE或自行构建知识抽取工具,对文本内容进行知识发现。比如在税务知识问答场景中,通过知识抽取工具,可以对在客服场景中产生的大量用户问句进行知识抽取,以获取需求主体的实体、关系和属性。比如在“深圳买二套房所需的增值税是多少?”这个问句中,通过序列标注,可以提取“深圳”“二套房”“增值税”作为税务知识体系的关键实体,以此降低税务专家从海量文本中建设税务知识体系的成本。