计量语言学研究进展
上QQ阅读APP看书,第一时间看更新

5.2 研究背景

5.2.1 熵

“熵”的概念源于对数字通信的研究。最初军事情报和电话行业要求通信信号能够无错误地长距离传输,这就必须从信源符号和信道噪声的概率特性出发来估算通信信道的容量。香农将布尔代数中的真(用1表示)和假(用0表示)两个值对应于计算机二进制系统中的“开”和“关”(1表示“开”,0表示“关”),用来估算通信信道的容量。

看下面这个例子(Gregory,2005:684),某待发送信息包含/t/、/d/、/p/和/b/这4个辅音中的任意一个,假设每个辅音的出现概率均等,则这则信息包含4比特信息量。若以“开”(以1表示)表示这则信息中实际出现的辅音,以“关”(以0表示)表示其他没有出现的辅音,则表示为:

由于4个辅音只能出现一个,这意味着有大量的冗余信息。为了减少冗余,我们可以增加一些特征限制来表征(减少该辅音表征的可能性数目M)将要出现的那个辅音的语音特点:

发声方式 以0表示清辅音,以1表示浊辅音 0 1

发声位置 以0表示双唇音,以1表示齿槽音 0 1

在这个模型中,当我们确定对该辅音表征的数目2以后,该信息的信息值从4比特降低到2比特。香农受掷多个骰子的复合试验的启发,验证了用取对数的方法确定信息量的大小是合理的,由此认为源消息的信息量等于表征该信息可能性数目M的“以2为底的对数”。“以2为底”体现的是二进制数字的使用,信息量的度量使用“比特”,一个比特是一位二进制数,是信道容量的测量单位。在上述例子中,当源信息中4个辅音出现的概率相等时,传送该信息的可能性数目M=4,则源信息的信息值IM为2比特,因为IM=log2(4)=2比特。

但上面这种出现概率相等的情况只是一种理想状态,在现实世界中,由于种种限制的存在,一个随机变量的信息量可能是以不等概率形式出现的,从而该信息的信息量会被降低。香农定义从某一信源发出某一个信息所带有的信息量为自信息(self-information),其计算公式是Ixi=-log2Pxi,其中Pxi是某个信息出现的概率。之后,他借鉴了热力学的概念,把自信息的数学期望定义为“信息熵”,并给出了计算“信息熵”的数学表达式:

将之前例子中各个辅音出现的概率做如下改动,p(t)=0.75, p(p)=0.15, p(d)=0.07, p(b)=0.03,则源信息的值变为:H(x)=[-(0.75·log2 0.75)]+[-(0.15·log2 0.15)]+[-(0.07·log20.07)]+[-(0.03·log20.03)]=1.14。

各辅音出现概率的不均等降低了源信息的信息值:从4比特(源信息中各辅音字母的等概率出现)或2比特(去除掉一些冗余信息)到1.14比特(源信息中各辅音字母的不均等概率出现)。因此熵的减少带来信息不可预测性的降低,从4(最不可预测的情况,当所有4个辅音出现概率均等)到1.14(当4个辅音出现概率都是最确定的,信息的不可预测性最低)。熵越大,表明信息越是未知的(未预测的);熵越小,则信息越是可知的(可预测的)。零熵表示这些信息是完全可以预测的,没有什么是未知的。

香农“信息熵”的研究之后发展到一阶熵、二阶熵,甚至高阶熵。由于语言现象的复杂性,语言文字的条件概率无法确定,这意味着获得高级阶的估计是不切实际的,因为这种可能性会随着阶数的增加呈指数级增长。所以二阶以上高阶熵目前只有估计值,没有计算值。本章对熵的研究也是一阶熵。

5.2.2 语言学的熵

语言学中也是根据式5.1来计算语言特征的熵。原公式中的p(x)变为p(r),表示某一语言特征的相对频率(即该频率与该语言特征频率总数N之比), V是语言特征的词型总数。根据熵的定义,熵是概率的函数,熵随着概率的变化而变化(Shannon,1948)。熵可以从整体上反映语言特征的平均信息量:首先是通过每个语言特征出现的相对频率计算其自信息(-log2 pr),然后对每一个语言特征自信息的数学期望进行平均,即平均熵(-pr log2 pr),在此基础上累加求和得到的值当然是从整体上体现符号集的平均信息量。

熵值的范围为H∈(0, -log2V),这是因为如果熵为0,所有频率集中在同一个语言特征上,即 ,预测该语言特征出现的概率会非常简单(信息值为0);如果熵取得最大值,则所有语言特征出现频率一致,比如都出现 ,此时。后一种情况中,频率分布是极端均匀的,但此时要预测任何语言特征出现的概率都是不可能的。因此,某一语言特征的熵值越高,表明其承载的信息量越多,同时也表明其丰富性或变化性越强。反之亦然。Popescu et al.(2009:183)的研究表明熵(H)和语言特征的词型总数(V)之间符合幂律函数H=aVb,其中ab是参数。如果语言特征为词语,则熵值越高,词汇变化越丰富;如果语言特征为词性(POS),则熵值越高,词性变化越丰富。

为了确保词例总数(N)不相等的多个熵值具有可比性,可以采取两种方法:第一种是进行标准化处理,计算相对熵(Hrel),公式为(Popescu et al.,2009:174);第二种是通过渐近正态检验(asymptotic normal test)来比较两个熵值,公式为u =u值大于1.96(α=0.05)则具有统计意义上的差异。Var是方差,计算公式为

值得注意的是,熵还可以通过一定的运算和其他计量语言学指标建立联系,一起纳入协同语言学(Köhler,2005)的框架下来进行解释。