6.3 基于KL距离的隐马尔可夫模型_人工智能：语音识别理解与实践-QQ阅读武侠男生网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

6.3　基于KL距离的隐马尔可夫模型

在DNN-HMM混合系统中，观察概率是满足限制条件的真实概率。然而，我们可以移除这些限制条件，并且将状态的对数似然度替换成其他得分。在基于KL散度的HMM（KL-HMM）[235, 236]中，状态得分通过以下公式计算：

这里，s表示一个状态（例如，一个senone)，是观察样本xt属于类别ad的后验概率，D是类别的数量，ys是用来表达状态s的概率分布。理论上，ad可以是任意类别。但实际上，ad一般选择上下文无关的音素或者状态。例如，zt可以是一个用输出神经元表示单音素的DNN的输出。

与混合DNN-HMM系统不同，在KL-HMM中，ys是一个需要对每一个状态进行估计的额外模型参数。在[235, 236]中，ys是在固定zt（也就是固定DNN）的情形下，通过最小化公式（6.14）中定义的平均每帧得分来得到最优化的。

除此之外，反向KL（RKL）距离

或者对称KL（SKL）距离

也可以被用作状态得分。

我们需要注意的是，KL-HMM可以被视为一种特殊的DNN-HMM，它采用ad作为一个DNN中的D维瓶颈层中的隐层神经元，并把DNN的softmax层替换成KL距离。因此，为了公平[3]，当比较DNN-HMM混合系统和KL-HMM系统时，DNN-HMM混合系统需要额外增加一层。

除了比DNN-HMM系统更复杂，KL-HMM还有另外两个缺点：第一，KL-HMM模型的参数是在DNN模型之外被独立估计的，而不是像DNN-HMM一样所有的参数都是被联合优化的；第二，在KL-HMM中采用序列鉴别性训练（我们会在第15章中讨论）并不如在DNN-HMM混合系统中那么直观。因此，尽管KL-HMM系统也是一个很有意思的模型，但本书将着重讨论DNN-HMM混合系统。

[1]对理想的分割模型而言，这个时长模型非常粗糙。

[2]HMM 中的独立性假设是需要语言模型权重的原因之一。假设有人通过每5ms而不是每10ms来提取一个特征并使特征数量加倍，那么声学模型的分数数量会加倍，于是语言模型的权重也会加倍。

[3]有一些文章在比较DNN-HMM 系统和KL-HMM 系统时用了不公平的比较方法，在这些文章中得到的结论是有待商榷的。