第三节 词汇语义表征研究:基于语义特征的语义网络模型
一、语言研究中的网络分析技术
无论是专家内省,还是人群调查,获取的语义特征数据都可以分为两种基本类型:属性和关系(林枫、江钟立,2011b;林枫,2013)。属性是认知主体从认知对象中提取的独立性质,往往有其现实载体。例如,词频的载体是单词。关系是对象的非独立特性。对关系的考察至少需要有两个对象。例如,两个词之间的语义关系,概念对义征的持有关系。在多数语言研究中,词频是一种重要指标,它体现了对属性数据的重视。例如,核心词汇就是依据词频分析而来。但是,目前研究提示,词频等属性型指标,反而受关系型指标的影响或制约(林枫、贺丹军、江钟立,2009;Chan&Vitevitch,2010)。属性型指标只能在某些情况下反映关系,而不能构成对关系的直接量度。在目前的科学研究体系中,明确区分属性和关系,并且直接针对关系数据建立评价体系,进行建模和分析的技术,主要是网络分析技术。它可以评估和展示关系型指标,从而有助于突破传统的词频范式,为语义网络研究提供新的依据。
在语言学中,关于网络分析技术的考察在术语上通常可以上溯到1956年,瑞奇斯(R.H.Richens)首次把“语义网络”(semantic nets)作为自然语言计算机处理的一个术语(Richens,1956)。在理论雏形上,可以回溯到20世纪60年代,奎廉把语义网络作为语义记忆模型:点代表概念,连线代表概念间语义联系(Quillian,1968)。在至今广为引用的模型方面,可以追溯到1975年,柯林斯和罗福图斯提出扩散激活模型,用来解释语义记忆的网络结构(Collins&Loftus,1975)。20世纪60年代开始,神经认知语言学的创始人兰姆(S.Lamb)提出语言的关系网络模型,在理论建构上把语言系统与神经网络相联系(刘宇红,2007)。但是,在这些研究中,“语义网络”往往是一种隐喻,而不是真正的分析工具。一些研究在数据构造上设想词为节点,词与词之间的语义关系为连线,建立语义关系网络。例如普林斯顿大学的WordNet©工程。但是,这些研究并不关心网络的宏观结构模式,而专注于语义检索和标注等细节问题。
2001年,西班牙学者费雷尔坎修和索尔通过建立英语单词在句子内的共现关系网络,首次研究了词汇网络的宏观结构模式,即网络在整体水平上涌现出来的结构模式,这些模式可以解释网络的整体功能,如信息传递和检索的效率性。该研究以《人类语言的小世界性》为题,发表于《伦敦皇家学会会议录B:生物科学》(Ferrer i Cancho&Solé,2001)。作为国际上第一篇探讨语言复杂网络宏观结构的论文,费雷尔坎修和索尔构建的网络模型是以单词为点,单词在句子中的共现关系(以空格数作为词距,纳入共现关系的词距为1和2)为连线。该论文有两大发现。一是小世界结构(small-world structure),即任意两个单词只需要经过3条连线即可连通(3度分隔)。这提示词汇网络信息连通的高效性。二是无标度结构(scale-free structure)。这种结构可以用巴拉巴西-阿尔伯特模型来解释,即网络的形成符合两大原则:“成长性”(不断有节点添加到网络中)和“优先连接性”(后加入的节点更容易连向那些高连接性的节点)。这符合基本的语言事实:单词量不断增加,但是总有一些单词始终拥有很强大的与其他单词组词成句的能力。在此研究基础上,费雷尔坎修和索尔指出,单词的重要性取决于其在网络结构中所处的位置。某些关键单词的受损会对宏观网络结构造成损伤,而另一些单词受损则有可能无损于网络的效率性和稳健性。由此他们提出,可以用语言网络模型来模拟和解释不同类型失语症的临床表现。
2004年,费雷尔坎修和索尔在《物理评论E辑》(PhysRevE)上发表《依存句法的网络模式》(Patterns in Syntactic Dependency Networks)(Ferrer i Cancho, Solé,&Köhler,2004)。该研究分析了单词句法依存关系网络,并且扩大了语言范围,包括了印欧语系的三种语言:斯拉夫语族的捷克语、日耳曼语族的德语、拉丁语族的罗马尼亚语。以每种语言的单词为点,单词在句子中的句法依存关系为连线。从二人在论文中对语料处理的描述上来看,实际上是以动词的配价关系作为连线。论文发现了四种网络特征。①小世界性,符合3度分隔的信息传递高效性。②无标度性,少数节点占据大多数连线,形成稳健而不易受损的网络结构。③异配性(disassortativeness):高连接性的功能词相互之间不直接相连,从而维护网络结构的动态稳定性。④分层云集性(hierarchical clustering):低连接性的词则更倾向于联系在一起形成模块,显示了句子-短语-单词的层次结构关系。
2005年,在著名的复杂适应性系统研究机构桑塔费研究所,索尔及其研究小组发表研究报告《语言网络的结构、功能和演化》(Solé,Corominas,&Valverde,2005),该文2010年收录于《复杂性》(Complexity)期刊(Solé et al., 2010)。论文除了讨论单词共现网络和句法关系网络以外,还增加了基于词典词项的语义关系网络建模和分析。此前的传统观念认为,语义网络中的高连接词是在语言发展历史中随机形成的。经过语义网络宏观结构分析,发现这些高连接词可以维护网络的稳健性和适应性。索尔提出,语言网络的研究要分不同的层面,第一是语言成分本身组成的网络,第二是语言使用者的社会网络,第三是语言、意义和世界之间的符号关系网络,而当前研究暂时停留在第一个层面。他同时还提出,从网络观角度来寻找语言普适性规律的研究才刚刚开始。他指出,之所以这样认为,是由于三方面原因:①在过去一百多年中,静态的场域理论仍然占据主导,而历史语言分析观有待发展;②还有待发展新的网络模型,用来描述语言网络赖以形成、维持和演变的认知机制;③语言系统的结构和规则有涌现性,而涌现性的机制尚待阐明。
近十年来,作为网络科学实践的方向之一,语言网络的建模和分析得到迅速发展。语言网络越来越多地被认为是一种复杂网络,其宏观结构符合复杂适应性系统的一些普遍特征(Solé,Corominas,&Valverde,2005;Jinyun,2007;Borge-Holthoefer&Arenas,2010)。这方面的研究,在横向(多语种)、纵向(多个语言层面)和深度(多种关系类型)上,呈现立体式发展。在应用研究方面,网络分析方法已经渗透到语言类型学研究(Liu&Li,2010)、语言发展或习得研究(Jinyun&Yao,2008;Corominas-Murtra, Valverde,&Solé,2009;Hills et al., 2010)、阿尔茨海默病语言病理变化(Borge-Holthoefer, Moreno,&Arenas,2011)、概念表征的分析和干预(Ferreira et al., 2006;林枫、贺丹军、江钟立,2011;曹震宇、林枫、王蓓蓓,2012;Lin et al., 2013)、失语症治疗(林枫、江钟立,2008;孙丽、江钟立、林枫、高敏行、过克方、于美霞,2010;Feng&Zhongli,2011;高敏行、江钟立、林枫、孙丽、田智慧、吴雏燕,2011)等诸多方面。
二、汉语网络建模的研究现状和趋势
在汉语研究方面,韦洛霞等分别在2004年和2005年在《科学通报》上发表论文《汉字网络的3度分隔与小世界效应》和《汉语词组网的组织结构与无标度特性》,分析了词之间以共享汉字为关系的复杂网络,发现这种网络模型具备小世界性和无标度性(韦洛霞等,2004;韦洛霞等,2005)。从网络的构建方法来看,由于采用构词语素作为连线的线索,所构建词组网络更像是语素义的共享网络。唐璐等2006年在《东南大学学报》(英文版)上发表论文《语义网络的结构:我们怎样学习语义知识》,以英语词网(WordNet)和英汉双语知网(HowNet)的同义词集为资料来源,构建的是同义词集之间的语义关系网络,也就是概念间的上位、下位、反义、部分等关系的网络(Tang, Zhang,&Fu,2006),分析指标与2004年费雷尔坎修和索尔所提出的4个指标相同(Ferrer i Cancho, Solé,&Köhler,2004),但是没有对不同关系类型进行分别解析。刘知远等2007年在《中文信息学报》发表研究汉语词同现网络的论文(《汉语词同现网络的小世界效应和无标度特性》),利用的是人民日报语料库和国家语委的人工分词语料库,词间距的界定与费雷尔坎修等最早界定英语词同现网络的方式相同(1-2)(刘知远、孙茂松,2007)。
目前可回溯的最早刊载于国际期刊的汉语网络建模研究,是清华大学李健瑜等2007年发表在《物理学A辑:统计力学及其应用》(Physica A:Statistical Mechanics and Its Applications)上的关于汉字部首网络的论文(Li&Zhou,2007)。2008年,复旦大学的周水庚等也在该期刊发表论文,报道了汉语词在句中紧邻关系和不限距离共现这两种关系的网络建模结果(Zhou et al., 2008)。
近年来,不断涌现出更多的汉语复杂网络分析论文,包括汉字在句子中的相邻关系网络(Liang et al., 2009;Wang, Wang,&Cai,2010;林枫、刘云、江钟立,2012)、音素在字词和句子中的共现关系网络(Yu, Liu,&Xu,2011)、基于动词语义指向关系的语义网络(Liu,2009)、基于联想关系的词汇联想网络(林枫等,2008a,2008b)等。值得注意的是,刘海涛2007年在《复杂系统与复杂性科学》上发表《汉语句法网络的复杂性研究》,以词为节点,以依存句法树库中的依存关系为连线,构建汉语句法网络进行分析(刘海涛,2007)。在这篇论文中,刘海涛提出,以往对小世界性和无标度性的发掘研究,虽然有利于认识语言结构的普遍性,但是大多数研究者来自物理学或其他自然科学领域,导致这些语言网络建模和分析的成果难以与现有语言学理论衔接,因而强调语言网络只是一种手段,这种手段的应用必须以语言学理论为指导。这种观点反映在他2011年的论文《语言网络:隐喻,还是利器》中:“在构造网络的过程中,应该以语言学理论为基础,让复杂网络真正成为语言研究的利器,而不只是一种隐喻。”(刘海涛,2011)
三、基于义征分析的语义网络建模研究现状和趋势
借助麦克雷等报道的名物概念义征库(McRae et al., 2005),博吉和阿瑞纳斯建立了基于语义相似性的词汇网络(Borge-Holthoefer&Arenas,2008)。该网络以单词为节点,单词间义征重叠关系为线,连线的权值则表明单词之间的义征重叠程度。重叠程度越高,两个单词的语义就越相似。博吉的研究关注的是如何借助义征库从联想词库中抽取语义关系,其中虽然采用了网络分析技术,但对语义的分析仅止于义征重叠关系,而没有把麦克雷提供的义征分类方案考虑进去。
希尔斯(T.T.Hills)等研究者(Hills et al., 2009)也进行了基于义征重叠关系的词汇网络建模,其中连线表示两端单词共享一个或多个义征。希尔斯研究的是儿童语义网络的发育机制,在构建义征重叠词网时,有意识地对义征类型进行了筛选。从CM脑区分类法中排除了百科知识型和分类学型,只保留感觉型(汽车<有轮子>)和功能型(面包<能吃>)。但是,希尔斯建立的义征重叠词网,仍然没有对“概念-义征”关系进行有效建模和充分解析,尤其是语义特征只作为概念间的连线关系来处理,而没有建立以语义特征为节点的网络模型。因此,语义特征在整个语义网络中的地位,以及特征受损会对语义网络产生什么影响,也就无法评估和度量。基于语义特征分析的语义网络建模研究仍有待进一步深化。
李葆嘉先生建立了汉语析义元语言标记集(李葆嘉,2013),为汉语词汇语义表征复杂网络建模提供了数据基础。郑航月的《汉语概念的特征结构初探》(郑航月,2009)和许振国的《语义加工中汉语概念特征的差异性效应》(许振国,2011)都采集并分析了受试者提名的经验性词汇语义特征数据集。但是,这些研究都没有提出要构建汉语语义特征质性分类方案,也没有系统地整理和分析词汇语义表征量化指标,更没有从探寻宏观语义结构的角度,建立词汇语义表征的复杂网络模型。前文已经论证过,要克服语义特征训练技术的局限性,就必须要借助配备了质性分类方案和量化评估指标的语义特征数据集,而语义网络模型是针对关系型数据的特有分析方法。因此,要建立面向言语治疗的汉语词汇语义分析方案,就要贯通以下四个要件:原始数据采集和整理→义征分型标注→量化指标计算→网络参数估算。这是一项复杂而艰巨的工作,因为这四个要件涉及了行为学测试的实施、语言学分类方案的设计、数据库的构建和复杂网络分析技术的应用等诸多方面。本章所提供的文献综述和现状分析陈述了研究的本体论立场,即呈现了言语治疗所存在的现实需求,以及存在语言学解决方案的可能性。接下来的两章将阐明本研究的认识论基础和方法论依据。