2.1 知识图谱构建基础
2.1.1 语义Web
互联网的创始人之一TimBerners-Lee在2000年提出了语义Web的概念:“语义Web是一个网,它包含了文档或文档的一部分,描述了事物间的明显关系,且包含语义信息,以利于机器的自动处理”。语义Web的目标是在计算机和人类理解的语义之间建立一种联系,用以满足智能软件代理对互联网上异构和分布信息的有效访问与检索。担任万维网联盟(W3C)主任的TimBerners-Lee称,语义互联网已经具备了成功所需要的所有标准和技术,Web开发人员和内容创作人员可以开始使用语义语言了。
1. 体系结构
图2-1描述了语义Web的七层体系结构。
图2-1 语义Web的七层体系结构
第一层:Unicode和URI。Unicode是一个字符集,这个字符集中所有字符都用两个字节表示,可以表示65536个字符,基本包括了世界上所有语言的字符。数据格式采用Unicode的好处就是它支持世界上所有主要语言的混合,并且可以同时进行检索。URI(Uniform Resource Identifier),即统一资源标识符,用于唯一标识网络上的一个概念或资源。在语义Web体系结构中,该层是整个语义Web的基础,其中Unicode负责处理资源的编码,URI负责资源的标识。
第二层:XML+NS+XML Schema。XML是一个精简的标准通用标记语言,它综合了标准通用标记语言的丰富功能与HTML的易用性,允许用户在文档中加入任意的结构,而无须说明这些结构的含义。NS(Name Space)即命名空间,由URI索引确定,目的是避免不同的应用使用同样的字符描述不同的事物。XML Schema是文档类型定义(外语缩写:DTD)的替代品,它本身采用XML语法,但比DTD更加灵活,提供更多的数据类型,能更好地为有效的XML文档服务并提供数据校验机制。正是由于XML灵活的结构性、由URI索引的NS而带来的数据可确定性以及XML Schema所提供的多种数据类型及检验机制,使其成为语义Web体系结构的重要组成部分。该层负责从语法上表示数据的内容和结构,通过使用标准的语言将网络信息的表现形式、数据结构和内容分离。
第三层:RDF+RDF Schema。资源描述框架(外语缩写:RDF)是一种描述WWW上的信息资源的一种语言,其目标是建立一种供多种元数据标准共存的框架。该框架能充分利用各种元数据的优势,进行基于Web的数据交换和再利用。RDF解决的是如何采用XML标准语法无二义性地描述资源对象的问题,使得所描述的资源的元数据信息成为机器可理解的信息。如果把XML看做一种标准化的元数据语法规范,那么RDF就可以看做一种标准化的元数据语义描述规范。RDF Schema使用一种机器可以理解的体系来定义描述资源的词汇,其目的是提供词汇嵌入的机制或框架,在该框架下多种词汇可以集成在一起实现对Web资源的描述。
第四层:“本体”词汇(Ontology Vocabulary)。该层是在RDF(S)基础上定义的概念及其关系的抽象描述,用于描述应用领域的知识,描述各类资源及资源之间的关系,实现对词汇表的扩展。在这一层,用户不仅可以定义概念而且可以定义概念之间丰富的关系。
第五至七层:逻辑(Logic)、证明(Proof)、信任(Trust)。Logic负责提供公理和推理规则,而Logic一旦建立,便可以通过逻辑推理对资源、资源之间的关系以及推理结果进行验证,证明其有效性。通过Proof交换以及数字签名,建立一定的信任关系,从而证明语义Web输出的可靠性以及其是否符合用户的要求。
2. 所用技术
目前的各种万维网技术都有可能被应用于语义网(在语义环球网的意义上),例如:
● DOM文档对象模型,一组访问XML和HTML文档组成部分的标准接口;
● XPath、XLink、XPointer;
● XInclude XML Fragment XML查询语言XHTML;
● XML Schema,资源描述框架(外语缩写:RDF);
● XSL,Extensible Stylesheet Language;
● 可缩放矢量图形(外语缩写:SVG);
● 同步多媒体集成语言(外语缩写:SMIL);
● SOAP;
● 文档类型定义(外语缩写:DTD);
● 微格式;
● 元数据概念。
2.1.2 知识图谱的架构
知识图谱的架构,包括知识图谱自身的逻辑结构以及知识图谱所采用的技术(体系)架构。
1. 知识图谱的逻辑结构
知识图谱的逻辑结构分为两个层次:数据层和模式层。
在知识图谱的数据层,知识以事实(Fact)为单位存储在图数据库中。如果以“实体-关系-实体”或者“实体-属性-值”三元组作为事实的基本表达方式,则存储在图数据库中的所有数据将构成庞大的实体关系网络,形成知识的图谱。
模式层在数据层之上,是知识图谱的核心,在模式层存储的是经过提炼的知识,通常采用本体库来管理知识图谱的模式层,借助本体库对公理、规则和约束条件的支持能力来规范实体、关系以及实体的类型和属性等对象之间的联系。本体库在知识图谱中的地位相当于知识库的模具,拥有本体库的知识库冗余知识较少。
2. 知识图谱的技术架构
图2-2描述了知识图谱的技术架构。知识图谱的构建过程是从原始数据出发,采用一系列自动或半自动的技术手段,从原始数据中提取出知识要素(即事实),并将其存入知识库的数据层和模式层的过程。这是一个迭代更新的过程,根据知识获取的逻辑,每一轮迭代包含三个阶段:信息抽取、知识融合以及知识加工。
图2-2 知识图谱的技术架构
知识图谱有自顶向下和自底向上两种构建方式。所谓自顶向下构建是借助百科类网站等结构化数据源,从高质量数据中提取本体和模式信息,加入到知识库中。所谓自底向上构建,则是借助一定的技术手段,从公开采集的数据中提取出资源模式,选择其中置信度较高的新模式,经人工审核之后,加入到知识库中。