聊天机器人:入门、进阶与实战
上QQ阅读APP看书,第一时间看更新

2.3 数据平滑

N-Gram模型在计算时考虑了词语顺序的信息,然而由于语料库有限,依旧存在数据稀疏的问题。对于语料库当中未出现的词序列,并不能够判定其没有出现的可能性。同时,大量的数据稀疏现象会导致词序列的概率为0。

为了解决这一类零概率问题,提出数据平滑。数据平滑的本质是重新分配概率空间,适当地降低已经出现过的词序列的概率,补充给未曾出现的词序列,使得所有词序列的概率都不为零,同时所有词序列的概率之和为1。

典型的平滑方法有加法平滑、Good-Turing平滑、组合估计等。