2.3 数据平滑_聊天机器人：入门、进阶与实战-QQ阅读男生都市网

上QQ阅读APP看书，第一时间看更新

2.3 数据平滑

N-Gram模型在计算时考虑了词语顺序的信息，然而由于语料库有限，依旧存在数据稀疏的问题。对于语料库当中未出现的词序列，并不能够判定其没有出现的可能性。同时，大量的数据稀疏现象会导致词序列的概率为0。

为了解决这一类零概率问题，提出数据平滑。数据平滑的本质是重新分配概率空间，适当地降低已经出现过的词序列的概率，补充给未曾出现的词序列，使得所有词序列的概率都不为零，同时所有词序列的概率之和为1。

典型的平滑方法有加法平滑、Good-Turing平滑、组合估计等。