
第四节 文体特征的相关系数
我们在进行文体研究时,常常会研究一个作家的写作风格是否会随着年龄的变化而变化。假设我们在考察作家的写作风格时只考察他的断句情况,也就是其标点符号的间隔距离。我们来分析标点符号平均间隔距离这一个表达写作风格的指标和作家年龄之间有没有关系,这就要用到相关系数。考察作家年龄与其作品的文体风格时涉及两个变量,即年龄变量以及标点间隔的平均距离,我们需要求出这两个变量之间的相互关系,统计学里的相关系数就可以表达这种相互关系。相关系数就是描述随机变量之间相关程度的参数。
由于随机变量存在连续型随机变量和离散型随机变量两种类型,因此根据随机变量的类型不同随机变量间的相关系数的计算方法也不一样。而且,相关系数有多种定义方法。
2.4.1 两个连续型随机变量的相关系数
应用比较广的连续型随机变量的相关系数是皮尔逊相关系数。一般不做特别说明时,相关系数通常就是指皮尔逊相关系数。其定义如下:
如果给定样本数据为(x1,y1)(x2,y2)……(xn,yn),那么随机变量x和y的相关系数r为:

rxy有以下重要性质:
1.-1≤rxy≤1。
2.当rxy=0时,说明随机变量x和y不相关,也就是x和y是相互独立的;
3.当rxy=1时,x和y呈线性相关关系,是正相关,y随着x的增大而增大。
4.rxy=-1时,x和y呈线性相关关系,是负相关,y随着x的增大而减小。
根据我们的日常经验,汉语中的“因”和“此”、“虽”和“然”、“所”和“以”这几对字相伴出现的可能性很大,也就是说这几对汉字使用时具有很强的相关关系;而“虽”和“因”、“虽”和“所”通常不在一起使用,彼此基本上是独立的,相关关系可能不大。下面我们使用统计学的方法来分析这几个汉字在统计上是否具有相关性。也就是说,我们能否可以从相关系数上证明上述假设,能否验证我们生活经验的可靠程度到底有多大。
为了说明这个问题,我们选取沈从文、朱自清、林语堂、苏童、王蒙、余秋雨等六位作家的作品,共438167字作为样本。各个作家样本字数具体情况如下:
表2.8 六位作家样本总体情况

我们使用《汉日语通用语料库分析工具》[4]从这些语言材料中统计了“因”“此”“虽”“然”“所”“以”等汉字出现的频率。其结果如下表:
表2.9 六位作家样本常用字频率情况

根据这个结果,我们计算这些字之间的相关系数。过去由于计算工具的限制,人们只能够利用公式2.11来手工计算这些汉字之间相关系数,但是这是一个非常复杂的工作,仅这几个汉字的相关系数的计算就可能花费很长的时间和精力。现在计算机软件技术非常发达,我们用常见的电子表格软件EXCEL就可以轻松地完成这项工作。下面简要介绍用EXCEL计算“以”和“所”相关系数的具体过程:
第一步:将统计得到的数据输入EXCEL中,如下图:

图2.2 常用字频率导入EXCEL
第二步:选择“以”和“所”的相关系数所要存放的单元格,我们这里选定“B8”。
第三步:在“B8”中输入“=Correl(B2:B7,C2:C7)”。这里Correl就是根据公式2.11计算相关系数的函数。具体情况如下图:

图2.3 常用字频率相关系数计算
第四步:输入“=Correl(B2:B7,C2:C7)”并确认无误后,按回车键,“以”和“所”的相关系数0.960883就会在单元格B8中显示出来。
用同样的办法,我们也可以算出“因”和“此”、“虽”和“然”的相关系数。结果如下图:

图2.4 常用字频率相关系数计算结果
根据相关系数的性质,相关系数的区间为[-1,1]。当相关系数为1时,说明两个汉字是完全相关的,即这两个汉字有一个出现,则另外一个肯定也出现。如果这两个汉字的相关系数接近1时,说明这两个汉字有一个出现则另外一个出现的可能性很大,是高度相关的。从上图我们看到,“以”和“所”,“因”和“此”的相关系数分别为0.96和0.93,非常接近1,这说明“以”和“所”,“因”和“此”是高度相关的。当相关系数接近0时,我们认为这两个汉字相关程度不大,也就是说这两个汉字除彼此之外还经常和其他汉字一起出现,或者其中一个的出现不依赖于另一个是否出现。这里“虽”和“然”的相关系数为-0.13,非常接近0。“虽”和“然”的这个结果似乎和我们的经验不太相符。但是通过进一步调查我们发现,在我们所调查的43万多字的文章中“虽”共出现了253次,“然”共出现了1392次,“虽然”共出现了122次。也就是说,“虽”有131次是独立出现或者是和“然”以外的汉字一起出现的,而“然”有1270次是独立出现或者是和“虽”以外的汉字一起出现的。由此可见,“虽”和“然”出现的相关关系不太大。尤其是“然”,“然”出现但是“虽”不出现的情况占绝大多数,可以说“然”对“虽”的依赖程度很低。从这个分析,我们也就不难理解“虽”和“然”之间的相关系数很小的内在原因了。我们的经验感觉为什么会出现这么大的偏差,这是因为“虽然”是一个词,这给我们造成了一个错觉,认为“虽”和“然”相关程度很高,而忽视了这两个字分别出现的情况。
实际上,字之间的这种相关关系和相关系数的大小还可以从根据上述三对汉字统计表中的频率所描绘的二维图清楚地看出。根据相关系数的性质,当相关系数等于1或者-1时,两个变量是呈线性相关,根据两个变量的值所描绘的点图就应该是一条直线。如果两个变量的相关系数接近1或者-1时,那么所描绘的点图就接近一条直线。否则根据两个变量的值所描绘的点图就是无规律的散点。这种表达两个变量相关关系的点图也可以利用EXCEL进行描绘。下面以“所”和“以”的相关关系点图描绘为例进行说明。其具体步骤如下:
第一步:将数据输入到EXCEL表中,如图2.2。
第二步:选择菜单中的“插入”→“图表”,如下图:

图2.5 EXCEL绘制散点图
第三步:选择“散点图”,进入下一步。因为我们要用“以”和“所”的统计数据画图,所以在“数据区域”中输入“B1:B7,C1:C7”,并且“系列产生在”选择“列”。如下图:

图2.6 EXCEL散点图输入数据描述
第四步:设置图表中横坐标和纵坐标的情况以及图表的名称。点击“系列”。由于我们所要描绘的是“以”和“所”的相关关系点图,因此,在“名称”输入“=Sheet1!$B$1:$C$1”。如果我们用“以”的数据作为X轴数据,用“所”的数据作为Y轴数据,则在“X值”中输入“=Sheet1!$B$2:$B$7”,在“Y值”中输入“=Sheet1!$C$2:$C$7”,如下图:

图2.7 散点图坐标轴设置
第五步:进入下一步,标出图表名称、X轴、Y轴的名称。“图表标题”我们可以设定为“以、所的相关关系图”,和第四步的设定相对应“数值(X)轴”设定为“以”,“数值(Y)轴”设定为“所”。如下如:

图2.8 散点图标题和坐标轴标题设置
第六步:点击完成,“以”和“所”相关关系的点图就生成了。

图2.9 EXCEL散点图结果
采用同样的操作方法,我们可以生成“因”和“此”、“虽”和“然”的相关关系点图,如下

图2.10“因、此”的散点图

图2.11“然、虽”的散点图
从图2.9和图2.10我们看到,“因”和“以”的在上述文章中的使用次数基本上是随着“此”和“所”的次数的增加而增加的,彼此之间有很强的依赖关系,这两个图中点的分布接近一条直线。而图2.11中看不出“然”和“虽”的使用频率之间存在这样的比例关系,其点的分布也非常分散,根本看不出其间有直线关系。由此可见,汉字在实际使用中的这种相关关系也可以从其使用频率的散点图上分辨出来。
2.4.2 等级相关系数
等级相关系数(Spearman相关系数)也叫秩相关系数,或者顺序相关系数。在上述求“因”和“此”两个汉字在文章中是否相关时,我们能够统计到这两个汉字在所有统计对象(文章)中的使用频率。因此,我们可以用公式2.11进行相关系数的计算。在现实生活中,有时我们不能够知道每一个样本的具体取值,但是,我们能够知道样本取值的大小顺序。比如[5]:根据日本NHK广播舆论调查所1978年对日本国民对各种花卉的喜爱程度的调查结果,日本男、女所喜爱花卉的顺序如表2.10:
表2.10 日本人的花卉爱好情况

根据这个统计结果,我们可以用统计的方法考察日本男性和女性对花的喜爱是否接近。由于对每种花的喜爱程度没法用量化的方法来表达,但是上述调查按照喜爱程度的不同对不同的花卉排列了顺序。下列公式给出了根据大小顺序计算两个随机变量的相关系数:

其中,n为样本容量,Ri和Ri'分别为随机变量在同一个样本上的取值。
和连续型随机变量相关系数一样,当两个顺序变量的相关系数r=1时,表示两个变量正相关,而且是完全线性相关,这时两个变量的大小顺序是完全一致的;当r=-1时,表示两个变量是负相关,这时两个变量的大小顺序是完全相反的。
这个例子中,日本男性和女性对花的嗜好的相关程度可以按照以下步骤进行计算。
第一步:计算每一种花卉男、女爱好的顺序差的平方,结果如表2.11:
表2.11 花卉爱好顺序差计算

第二步:根据公式2.12,则

第三步:由于相关系数接近于0.9,所以我们可以认为,日本男性和女性对花卉种类的喜好有很强的相关关系。
和连续型随机变量相关系数的计算一样,在计算等级相关系数时我们也可以借助EXCEL,以简化相关系数的计算工作量。
2.4.3 相关系数在文体研究中的应用
在文体研究中我们会经常关注某一位作家在不同的创作年代其写作习惯或者写作风格是否发生了变化,发生了怎样的变化。一个作家的创作过程总是由不成熟逐步走向成熟,在走向成熟的过程中,除了其创作思想的逐步成熟外,其创作风格也会走向成熟,产生属于自己的独特的文体风格。当然一个作家的独特风格是表现在多个方面的,但是仅从作家断句的特点变化我们也可以观察到这一点。下面我们利用相关系数来考察作家断句习惯是否和其年龄相关,以说明作家的写作习惯变化和年龄之间的关系。
冰心是我国现代文坛上创作时间较长的一位著名作家。《冰心全集》中收录的冰心最早的作品《二十一听审的感想》发表于1919年8月25日的北京《晨报》。冰心直到1994年还在坚持写作,其创作年龄达到75年。因为这一点,笔者以冰心为例利用相关系数考察作者写作风格是否与作者的年龄有关。
我们以海峡文艺出版社出版的《冰心全集》里收录的冰心作品为分析对象。样本采集分两步进行,首先采取等距离抽样方法,每隔三年左右抽取一些作品,共抽取了29个样本。由于这些作品篇幅长度不一,为了便于对比,使得每个样本的字数大体相等,我们又对冰心同一时期的作品进行了合并,最后得到12个字数约为5000字左右的样本,我们以这12个样本作品作为最后的分析对象。这12个样本如表2.12:
表2.12 冰心不同时期作品样本

我们还是以作者的断句风格为考察对象,主要考察作者隔多少字点一个标点符号。即考察标点符号和标点符号之间的距离。实际上,一个作家的任何一部作品,其标点符号之间的距离有很多种情况,这些情况我们可以用距离的分布来描述。我们这里主要分析作家每一个创作时期其标点符号的平均距离是否会随着其创作年代发生变化,也就是其标点符号的使用风格是否和年龄有关。冰心这12个时期的作品的标点符号距离分布如表2.13:
表2.13 冰心不同时期作品标点间隔情况


表2.13中,第一列是冰心作品中标点符号间隔情况,从间隔1个字点一个标点到间隔126个字点一个标点的情况都有,只不过每一篇文章各种情况出现的次数不同。第二列以后的数字表示每一种间隔距离在本部作品中所占的比例。也就是每一种间隔距离在不同作品中的分布情况。从表2.13我们可以看出,标点符号超过26个字的情况,在冰心的前期作品中基本不出现。也就是说,早期作品中,冰心点标点符号的习惯不可能超过26个字。1962年以后这种情况才开始多了起来。因此从这个表上我们也可以粗略地看出,冰心点标点符号间隔的距离随着年龄的增长而越来越长。这种相关我们用等级相关系数就可以看得更加清楚。下面我们计算冰心每个时期作品标点符号之间平均距离和作品创作年代之间的等级相关系数。
从表2.13我们可以计算出上面12个创作时期每个创作时期冰心标点符号的平均间隔距离。如表2.14:
表2.14 冰心不同时期作品平均标点间隔距离

根据等级相关系数的计算方法,我们需要对12个标点符号的平均距离和年代进行排序,确定年代秩序和标点符号平均距离秩序。由于我们抽取样本时是按年代次序抽取的,所以年代秩序可以将年代直接用1—12替代就行了;而标点符号距离秩序必须要对上述标点符号平均距离进行排序才能够得到,这用EXCEL也可以很简单地得到。其结果如表2.15.
表2.15 冰心作品年代顺序和平均标点距离顺序


根据等级相关系数,首先需要求得年代秩序和距离秩序之间的差,然后才能够计算等级相关系数R的值。我们借用EXCEL也可以很容易做到这一点。其结果如表2.16。
表2.16 冰心作品年代顺利和平均标点距离顺序差


根据上述结果,秩序差的平方和为60。在此基础上,创作年代和标点符号的间隔距离的等级相关系数用以下公式就可以求出:

通常情况下,当相关系数的绝对值为1时,可认为两个变量是完全相关的,其绝对值大于0.9时可认为是高度相关的,在0.7到0.9之间时可认为是相关的,在0.3以下时可认为是弱相关或者是不相关的(张卫国,2002)。根据上述结果,冰心作品的创作年代和冰心标点的习惯之间存在明显的相关关系。即冰心的标点符号之间的距离随着年龄的增加有慢慢变长的趋势。这一点也可以从创作年代和标点距离的散点图(图2.12)可以看出。

图2.12 冰心作品标点距离和年代的关系