计量语言学研究进展
上QQ阅读APP看书,第一时间看更新

1.5 结论与讨论

齐普夫定律由于阐述了语言中最重要的量——词频的分布规律而备受重视,也由于其开创性而成为语言学研究的最主要的定律。齐普夫定律阐述的分布幂律与很多自然和社会现象相同,而人类是自然的一部分,人的机能来自于自然界的进化,因而这就激励科学家寻找人类语言乃至认知系统的规律与社会和自然规律的统一机理。在这些大量的不同的物理机理背后寻找数学规律,就是寻找各组成部分之间的数学关系。我们通过仿真实验显示出各组成成分间不平等,在一定条件下会产生幂律。这种不平等可以被表述为层级结构。

仿真实验结果表明,当系统中各成员不同质,呈现层级时,在一定条件下可以产生幂律。也就是说,在自然界和人类社会的系统中,如果系统成员具有异质性,就有可能产生幂律。这就解释了为何幂律如此普遍存在。而语言中词并不是相似的,各词的作用差异很大,所以本章的仿真结果支持这样的结论:齐普夫定律是由语言的层级结构产生的。

但是,很多研究已经发现,双对数下的词频序关系曲线表现为下弯曲,因此,产生了这样的问题:作为一个普遍性质,齐普夫定律阐述的以幂律表达词频与其序之间的关系是准确的吗?这个问题是所有研究齐普夫定律的基础。其实,齐普夫本人当年就已经发现,词频与其序之间的幂律关系在一定语料规模下是较好的,但是当语料规模增加时,并不能一直较好地保持。换句话说,随着语料规模的增加,词频与其序之间原本保持较好的幂律关系开始变得不准确了。这种现象我们称之为下弯曲或上凸。

通过分析和计算语料规模增长过程中词频的变化,我们发现了词频序关系曲线的下弯曲现象的直接成因——由于甚低频词的词频并不能随着语料规模等比例增加,并且,新出现词的数量也远少于幂律函数的要求。另外,对51种语言的统计结果显示,这种现象无一例外是普遍存在的。因此,这可以认为是人类语言的普遍规律。在句子中的统计结果表明,各句子中不同频段词的出现比例是相同的。因此,词频序关系的性质来自于句子中用词的特点,或者说是人类使用词组成句子时涌现出的特点。

本研究的统计结果概括如下:句子中50%左右是甚高频词,这部分词很少,一般在100个左右,它们的出现概率正比于语料规模,与文本的领域和话题相关性很小;语料库中1%左右的词频是由甚低频词提供的,但是这部分词的数量很多,占全部词型数的一半以上,它们的出现概率与语料规模并不成等比变化;另一部分词的出现概率处于中间,它们的出现概率也能与语料规模保持等比例增长,这部分词与高频词的频率序关系都能保持幂律。

词的出现概率与话题领域有关,高频词与话题领域的关系很小,也就是与领域无关的,而甚低频词一般只出现在特定的领域中,话题领域专属度与词频序成正比。

本研究显示,随着语料规模的增加,并不是所有的词都按照同样的比例增加频率,大多数在下弯曲段的词的词频增加的比例小于语料规模的增加比例。因此很多统计理论和方法不能在这种情况下使用。这是因为,它们不能满足统计学的基础之一——大数定律。本研究也显示出,语料库中绝大部分词的频次在语料规模增加了几百倍时,与语料规模的平均比例仍小于0.5(65.83%)。因此,这表明了对于低频词,大数定律不成立。研究同时也显示出,语言使用中的有限性和无限性,即:高频词是有限的,低频词是无限的,高频词的有限性表现在以稳定的概率重复出现,低频词的无限性表现在再次出现的平均时间间隔并不体现这个规律。这与Ferrer-i-Cancho & Solé(2001)等的观点是一致的。一些研究工作也已经注意到依据词频对词进行分类的问题(Kornai,2002; Gerlach &Altmann,2013),这些分类都是依据词频序关系的幂律指数不同,本章关于词频增长速度的研究,使得这种分类有了更清楚的意义。本章的结果表明词频随语料规模增加的增长速度作为一个参量,依据其是在1附近的,还是显著小于1的,可以作为将词分类的方法。

在齐普夫定律研究中有重要影响的是Simon(1955)提出的重复使用模型。该模型有两个基本假定:(1)以前频繁出现的词优先出现;(2)以固定概率引入新词。这两个假定与本章的统计结果并不完全相符。Simon(1955)的模型并没有指出引入新词以后,如何修改旧词的再次出现概率,也没有指出在旧词中概率是如何分配的,以及新词的出现概率实际上并不稳定。并且,Simon(1955)的模型也没有看到词是应该分为两类的。

Simon(1955)的模型受到的一个质疑是,它并没有指出有些词为何会一再被重复使用。Piantadosi(2014)认为,这应该不是由于我们的内在偏好(intrinsic preference),而应该是话题的影响。1.4节句子层面的统计结果显示,每个句子都遵从一个固定的对每个频段的词的用词比例,这就是说,齐普夫定律虽然是词层面的,但是它对于句子是透明的。换句话说,是组词成句的规律,而不只是用词的规律。甚高频词绝大多数是虚词和代词,这些词是句法功能需要的,也就是说,是组词成句的需要。而句子是我们使用语言的基本单位,因此这些甚高频词就成为必需品,这一部分词的出现概率与话题无关。对于甚低频词,其再次出现的概率非常小,因此这部分词是文本特定需要,更可能是特定句子表达需要,具有很大的随意性。这部分词的数量非常大,几乎占到了词型数的一半,但是这部分词提供的词频却只有1%左右。

本章从语言本身的统计计算和一般性仿真两个方向研究齐普夫定律,但是,我们仍没有能够给出直接的证明,证明那个最基本也是最重要的问题:词频序关系中,幂律出现的充分必要条件是什么?即,为何是幂律而不是其他的规律?但是,基于本章的研究结果使我们更深入地认识了词频序关系及其随语料规模的生长过程,可以借此对齐普夫定律的函数式有更深刻的理解,还使得我们认识到词的差别不只是具有不同的出现频率,更有本质上的不同,即对于语言生成来说,较少的有限数量的词是“必要的”,而无限数量的词具有很大的随意性和临时性。这个现象把我们的注意力引导到语言的效率上,语言系统需要提高表达效率,就必须提高短词的使用频率,语言的音位系统是相对固定的(否则人和人之间的交流就变得不稳定),因而其中的短词的数量是固定的,“一码多义”就成为提高表达效率的必需途径,这样就产生了大量使用高频词的现象。语言表达必须解码唯一,而加入低频词,可以起到提示解码范围的作用,因而实现了解码唯一。

无论对齐普夫定律研究的解释力如何,研究都要指出:这样的分布在句子中是怎样的?它反映了句子怎样的性质?并因此反映了语言怎样的性质?本章在句子层面的统计结果显示,当句长大于6或7以后,句子中各频段的词的比例就稳定了。近50%的词是频率序在前100的甚高频词,这部分词绝大部分是出于句法需要的功能词。也就是说,我们要将大脑中的概念和意义“组装”成线性的、对方可以正确解码的句子,需要将近一半的“编码用词”。各语言的句法不同,高频词的词次占全部词次的比例相差较大。该比例可以作为表征语言性质的参数。

齐普夫定律统计的基本单位是词,但词的意义是在使用中,是在与其他词的组合中表现出来的。因此,考虑词之间的组合可能可以成为研究词频序关系的一个思路。

(本章通讯作者:于水源,中国传媒大学计算机学院)