2.1 语义资源
语义资源是语义知识的来源,词汇的语义资源包括结构化的知识库和非结构化的语料库。随着国内外对语义资源的研究不断深入,已经有不少知识库、语料库在自然领域处理领域中得到了应用。结构化的知识库被广泛应用于智能问答、自动文摘等任务;而语料库已成为研究计算语言学、建立统计语言模型的基础资源,为大规模的文本语义分析提供了有利的条件。
2.1.1 知识库
知识库大致分为三类:通用型、领域型和跨语言型。典型的通用型知识库包括WordNet[30]、DBpedia[31]、YAGO[32]、BabelNet[33]、Probase[34]、知网[35]等,这一类具有实体关系表示格式的知识结构也被称为知识图谱。
1.WordNet
WordNet是一个由美国普林斯顿大学认识科学实验室在心理学教授乔治·米勒的指导下建立和维护的语义词典,其最新版本包含约11万个概念和20万个“单词-概念”对。WordNet不仅给出了词汇的概念定义,而且能够揭示词汇所属的概念以及概念之间的关系。它混合了传统的词典和同义词词林的特点和属性,包含来自多个语料的词汇,包括Brown语料库[36]、Laurence Urdang的同义反义小词典、Rodale同义词词典以及罗杰斯同义词词林[37]等。WordNet以同义词集(Synset)作为基本构建单位,并按照语义关系进行组织,每一个同义词集代表一组存在同义关系的词汇集合,表示一个确定的、唯一的语义概念或者义项(Sense),并且给出了每个义项的注释(Gloss)和例句。如图2-1所示,以英文单词“chair”为例,椭圆形表示一个同义词集,而方形中包含的是相应同义词集的注释,用于解释同义词集所代表的具体含义。
图2-1 WordNet实例
一个同义词集中包含的多个消除了多义性的词汇叫作词元。由于一个多义词对应着多个不同的语义,因此一个词汇可能存在于WordNet中的多个同义词集中。表2-1展示了英文名词“tree”在WordNet中对应的三个同义词集及相应的注释。其中,<tree#n#2>表示“tree”的第2个概念,该同义词集中包含的“tree”和“tree diagram”为该概念的词元。
表2-1 在WordNet中“tree”对应的同义词集及注释
WordNet的设计者认为,如果人们在大脑中有一个已知的概念,就可以在同义词集合中找到一个适合的词汇去表达这个概念。从这个层面来说,WordNet在词的词形和意义之间建立起了映射。由于词形与词义之间的映射关系是多对多,因此一个多义词存在于多个不同的同义词集中,而含义相同但词形不同的词汇存在于一个同义词集中。WordNet按照词性将词汇归类为名词、动词、形容词和副词,不同词性的词汇各自被组织成一个相对独立的网络,网络与网络之间并无连接。WordNet描述的词汇对象包括复合词(Compound)、短语动词(Phrasal Verb)、搭配词(Collocation)、成语(Idiomatic Phrase)和单词。其中,单词作为最小的语义单元,是主要的词汇对象。WordNet不仅利用同义词集合表示概念,而且定义了概念之间的多种语义关系,用于说明各个概念之间的关联。这些语义关系包括:同义关系(Synonymy)、上位/下位关系(Hypernymy/Hyponymy)、整体/部分关系(Meronymy/Holonymy)、反义关系(Antonymy)、衍生关系(Derived From)等。不同的词性具有的关系各不相同,这些关系主要分为以下两大类:
1)名词和动词主要涉及同义关系、上位/下位关系、整体/部分关系以及属性关系
上位/下位关系也被称为“is-a”继承关系,构成同义词集之间的层次关系,语义更为具体的下位词具有上位词的所有属性特征。整体/部分关系又包含细化的三类:“part-of”、“member-of”和“substanceof”。整体/部分关系用于表示两个同义词集之间包含与被包含的关系。这类关系具有某种限制,且属于不对称的关系,主要针对WordNet中的名词和动词。名词与形容词之间存在着属性(Attribute)关系,名词属性的值由形容词表达,以此反映名词多个方面的特征。
2)形容词和副词主要涉及同义关系、反义关系和衍生关系
形容词可以由衍生关系指向名词和动词,而副词可以由衍生关系指向一个形容词。反义关系主要存在于形容词之间或副词之间。
以名词为例,表2-2列举了WordNet语义关系的类型和含义。由于存在一词多义现象,每个词汇可能有多个不同的意思,而每个不同的语义又可能对应多个词,这些词汇之间构成同义关系。例如,“鸟”和“飞禽”的关系。上位/下位关系是词义之间的语义关系,也就是说是同义词集之间的一类关系。例如,“香槐”是“树”的下位词,“树”又是“植物”的下位词。上位/下位关系是一种非对称关系,即通常情况下,一个同义词集只有唯一的上位词,但包含很多个下位词。即使上位词概念不唯一,不同的上位词概念之间差别也非常小。下位词位于其上属关系的下层,这意味着子概念继承了父概念的语义信息,并且包含了更多特有的语义。例如,“枫树”继承了其上位词“树”的所有属性,并以其坚硬的木质、叶片的形状等特性代表了一种特殊的树。
表2-2 WordNet中主要的语义关系
由于WordNet侧重于利用概念语义关系来描述词汇,而不给出词汇的文本语境,因此WordNet缺乏在特定的主题下对词汇之间的关联进行的直接描述。例如,在WordNet中,球(ball)和球网(net)等词之间没有直连边,尽管它们可能频繁共现在包含运动主题的语料中。目前,WordNet的最新版本3.0包含了155287个独立词,构成了117659个同义词集和206941个“词—词义”对。其中,117798个名词分布在82115个同义词集合。依据同义词集之间占主要地位的上位/下位关系,WordNet的结构可以简化为一个图状或树状的层次结构,这一特性常被用于作为计算概念语义相似度的前提假设。而其他语义关系(如整体/部分关系)更适用于计算词汇的语义相关度。
2.DBpedia、BabelNet
由德国莱比锡大学等机构组建的DBpedia,是一个大规模的开放性百科知识库,其中的实体信息和语义关系信息来自从维基百科中抽取的实例,包含约1000万个实例和14亿个实例关系。因此,DBpedia可以被视为维基百科的结构化版本。DBpedia从维基百科的词条中提取出结构化数据,用于强化维基百科的搜寻功能,并将其他资料集连结至维基百科。同时,DBpedia是世界上最大的多领域知识本体之一,是Linked Data的一部分,美国科技媒体ReadWriteWeb将DBpedia选为2009年最佳的语义网应用服务。DBpedia的资料集包含超过458万种物件的资料,包括人、地点、唱片名、电影名、电脑游戏和疾病名等。其提供的数据被BBC、路透社、《纽约时报》等新闻媒体采用,同时也是Google、Yahoo等搜索引擎检索的对象。DBpedia支持数据集的完全下载。
与之类似,BabelNet也是一个由概念、实体、关系构成的语义网络,它是目前全世界最大的多语言百科同义词典。BabelNet目前有超过1400万个词目,每个词目对应一个同义词集。每个同义词集包含所有具有相同含义却隶属不同语言的同义词。例如,“中国”“中华人民共和国”“China”以及“People's Republic of China”均存在于同一个同义词集。BabelNet由WordNet中的英文同义词集与维基百科页面进行映射,再利用维基百科中的跨语言页面链接以及翻译系统,得到BabelNet的初始版本。目前,BabelNet又整合了Wikidata、GeoNames、OmegaWiki等多种资源,共拥有271个语言版本。BabelNet目前支持HTTP API调用,数据集的完全下载需要经过非商用的认证后才能完成。
3.YAGO
YAGO是德国马克斯·普朗克研究所发起的项目,整合了来自维基百科和WordNet的约1000万个实体的资料和1.2亿条实体关系。它首先制定一些固定的规则对维基百科中每个实体的infobox进行抽取,然后利用维基百科的category进行实体类别推断(Type Inference),由此获得大量的实体与概念之间的is-a关系。例如,“Elvis Presley”is-a“American Rock Singers”。另外,它将WordNet提供的同义词集与维基百科的分类信息进行映射,从而利用WordNet严格定义的分类结构完成大规模本体的构建。随着时间的推移,YAGO的开发人员为本体中的RDF三元组增加了时间与空间等额外信息,从而构建了YAGO2,又利用相同的方法对不同语言的维基百科进行抽取,完成了YAGO3的构建。
此外,谷歌的Freebase知识库[38],包含约3900万个概念和18亿条语义关系。领域型知识库被用于解决某一专门领域的问题,常见的如医学基因本体[39]、地理本体Geonames和社会关系本体FOAF等。领域型知识库在金融、农业、电商、医疗健康、环境保护等垂直领域均得到了广泛的应用。跨语言型的知识库能够提供多种语言的语义知识,与大部分通用型知识库存在交叉,包括WordNet、DBpedia、BabelNet、Freebase、维基百科、HowNet和ConceptNet等。ConceptNet是一个多语言的常识知识库,以自然语言的方式描述人类常识,共有超过390万个概念、2800万个声明(语义网络中的边)。ConceptNet起源于1999年的一个众包项目,通过文本抽取、众包、融合等方式来获取和集成其他知识库中的常识知识,并基于游戏设计不断获取常识知识。ConceptNet中包含36种固定的关系,如is-a、HasProperty、UsedFor等。ConceptNet支持数据集的完全下载。
4.知网
知网(HowNet)[35]是一个在汉语领域占据重要地位的通用词汇知识库。它采用“汉—英”双语表示概念,以揭示概念之间以及概念的属性之间的关系为基本内容。义原(Sememe)是知网中最小的描述单元,不可分割且无歧义,用于表示词汇的语义(概念)。例如,知网对于“将军”的描述为:
DEF={human|人:belong={army|军队}, modifier={official|官}; {fight|争斗:agent={~}, domain={military|军}}}
其中,“人”“军队”“官”“争斗”以及“军”均为义原。由此可见,知网利用多个义原的组合,共同描述一个概念“将军”的含义。
以词汇“打”为例,知网对于一个词汇的描述如表2-3所示。该表给出了“打”的三个概念的描述,其中,“DEF”是概念的语义描述,“beat|打”“buy买”“commercial|商”“weave|编”均为“打”所表达概念的义原。目前,知网包含了1600多个义原,这些义原组合形成了16000多个概念。理论上,汉语中的任何一个词汇均可以用这些义原来描述表示,而语义相同或相近的概念的义原一定也相同或者相近,这为计算词汇的语义相似度提供了理论基础。
表2-3 词汇“打”的描述示例
知网定义了义原之间的上下位关系、同义关系、对义关系等8种关系,其中上位/下位关系是最主要的关系类型。依据这些相互关系,义原分布在10棵义原树中,它们可分为三大类,如表2-4所示。
表2-4 知网对义原的分类
除了知网,目前可用的中文大规模开放知识图谱还包括Zhishi.me[40]、XLore[41]和Zhishi.schema[42]等。
2.1.2 语料库
语料库是语料的集合或者仓库。单词“Corpus”来源于拉丁文,其本意为“躯体”,在18世纪后被用于指代“文字形式的汇编、文集”的含义。20世纪50年代后,Corpus才逐渐具有现代意义上的“语料库”的含义,指“用于进行语言分析而收集的大量书面语或口语资料”[43]。
随着计算机技术的发展及其普及,电子语料逐渐出现,20世纪60年代,第一个机读语料库——布朗语料库(Brown Corpus)的创建,标志着现代计算机语料库以及第一代语料库的诞生[44]。布朗语料库是世界上第一个根据系统性原则通过抽样方法收集样本的标准语料库,收集了500个连贯英语书面词汇,每个文本超过2000个词,整个语料包含约100万个词。20世纪70年代初,英国兰卡斯特大学与其他两所大学联合建立了与布朗语料库规模相当的LOB语料库,它与布朗语料库一样,被用于语言研究。此后,随着计算机的数据处理能力不断增强,超大规模的语料开始出现,如柯林斯语料库(Collins Birminham University International Language Database, COBUILD)、朗文语料库(Longman Corpus)和英国国家语料库(British National Corpus, BNC)[45]。朗文语料库的规模达5000万个词汇。英国国家语料库由英国牛津出版社、朗文出版公司、牛津大学计算机服务中心、兰卡斯特大学英语计算机中心以及大英图书馆等机构联合开发建立,于1994年完成,可以通过网络直连。该语料来源广泛,由4124篇代表广泛的现代英式英语文本构成,词容量超过一亿个,其中书面语占90%、口语占10%。在20世纪80年代末,美国宾夕法尼亚大学对百万词汇级别的语料开始了句法和语义的标注,建立了宾夕法尼亚大学树库(PennTreeBank),把线性的文本语料加工成表示句子句法和语义结构的树库,并在2000年完成了约10万个词汇、4000余个句子第1版中文树库。此外,维基百科也常被作为大型的语料库,用于抽取文本语义。与一般的非结构化语料不同,它包含了概念类别、语义关系等多种结构特征,因此也被认为是半结构化知识资源或者一种语义词典。
相对于许多英文语料,汉语语料的建立起步较晚,比较典型的有北京大学的现代汉语语料、《人民日报》标注语料等。
语料中的词频等统计信息,有助于确定词汇所携带的信息含量的大小或语义特征的大小,衡量任意两个词汇在向量空间中的语义相似程度。语料库由于包含大量的词汇、丰富的语境和话语篇章描述,常被用于挖掘词汇的语义信息和文本之间的语义关联。因此,一个大规模的语料对于自然语言理解、人工智能、数据挖掘等研究都具有极其重要的价值。随着机器学习技术的发展,从大型语料库中提取有用的文本特征来获取词汇的语义和语法等信息,逐步发展为自然语言处理等领域的重要研究内容。