N-Gram模型在计算时考虑了词语顺序的信息,然而由于语料库有限,依旧存在数据稀疏的问题。对于语料库当中未出现的词序列,并不能够判定其没有出现的可能性。同时,大量的数据稀疏现象会导致词序列的概率为0。
为了解决这一类零概率问题,提出数据平滑。数据平滑的本质是重新分配概率空间,适当地降低已经出现过的词序列的概率,补充给未曾出现的词序列,使得所有词序列的概率都不为零,同时所有词序列的概率之和为1。
典型的平滑方法有加法平滑、Good-Turing平滑、组合估计等。