![人工智能:语音识别理解与实践](https://wfqqreader-1252317822.image.myqcloud.com/cover/51/35011051/b_35011051.jpg)
6.3 基于KL距离的隐马尔可夫模型
在DNN-HMM混合系统中,观察概率是满足限制条件的真实概率。然而,我们可以移除这些限制条件,并且将状态的对数似然度替换成其他得分。在基于KL散度的HMM(KL-HMM)[235, 236]中,状态得分通过以下公式计算:
![](https://epubservercos.yuewen.com/98014D/18685354608165306/epubprivate/OEBPS/Images/38143-00-131-2.jpg?sign=1739000386-QD4WECqClQPt08KA3yF7ksury4J4A6r4-0-602c5ae6dcf2c23fd4354305f8d6ddf6)
这里,s表示一个状态(例如,一个senone),是观察样本xt属于类别ad的后验概率,D是类别的数量,ys是用来表达状态s的概率分布。理论上,ad可以是任意类别。但实际上,ad一般选择上下文无关的音素或者状态。例如,zt可以是一个用输出神经元表示单音素的DNN的输出。
与混合DNN-HMM系统不同,在KL-HMM中,ys是一个需要对每一个状态进行估计的额外模型参数。在[235, 236]中,ys是在固定zt(也就是固定DNN)的情形下,通过最小化公式(6.14)中定义的平均每帧得分来得到最优化的。
除此之外,反向KL(RKL)距离
![](https://epubservercos.yuewen.com/98014D/18685354608165306/epubprivate/OEBPS/Images/38143-00-132-2.jpg?sign=1739000386-C9gDa8pGQIhNv6NIgQF6ujfbhlmmHuMT-0-735adc3ab2733ef61c186e7e1ece559e)
或者对称KL(SKL)距离
![](https://epubservercos.yuewen.com/98014D/18685354608165306/epubprivate/OEBPS/Images/38143-00-132-3.jpg?sign=1739000386-I6pt2mAHN59RMLF8hMqDXT6nvAgQW4Gq-0-810f98773b3c1da92c0ad512e13f5106)
也可以被用作状态得分。
我们需要注意的是,KL-HMM可以被视为一种特殊的DNN-HMM,它采用ad作为一个DNN中的D维瓶颈层中的隐层神经元,并把DNN的softmax层替换成KL距离。因此,为了公平[3],当比较DNN-HMM混合系统和KL-HMM系统时,DNN-HMM混合系统需要额外增加一层。
除了比DNN-HMM系统更复杂,KL-HMM还有另外两个缺点:第一,KL-HMM模型的参数是在DNN模型之外被独立估计的,而不是像DNN-HMM一样所有的参数都是被联合优化的;第二,在KL-HMM中采用序列鉴别性训练(我们会在第15章中讨论)并不如在DNN-HMM混合系统中那么直观。因此,尽管KL-HMM系统也是一个很有意思的模型,但本书将着重讨论DNN-HMM混合系统。
[1]对理想的分割模型而言,这个时长模型非常粗糙。
[2]HMM 中的独立性假设是需要语言模型权重的原因之一。假设有人通过每5ms而不是每10ms来提取一个特征并使特征数量加倍,那么声学模型的分数数量会加倍,于是语言模型的权重也会加倍。
[3]有一些文章在比较DNN-HMM 系统和KL-HMM 系统时用了不公平的比较方法,在这些文章中得到的结论是有待商榷的。