机器学习公式详解(第2版)
上QQ阅读APP看书,第一时间看更新

2.1 经验误差与过拟合

我们先来梳理本节的几个概念。

错误率,其中为样本个数,为分类错误的样本个数。

精度:精度= 1-错误率。

误差:学习器的实际预测输出与样本的真实输出之间的差异。

经验误差:学习器在训练集上的误差,又称为“训练误差”。

泛化误差:学习器在新样本上的误差。

经验误差和泛化误差用于分类问题的定义式可参见“西瓜书”第12章的式(12.1)}和式(12.2),接下来我们辨析一下以上几个概念。

错误率和精度很容易理解,而且很明显是针对分类问题的。误差的概念更适用于回归问题,但是,根据“西瓜书”第12章的式(12.1)和式(12.2)的定义可以看出,在分类问题中也会使用误差的概念。此时的“差异”指的是学习器的实际预测输出的类别与样本真实的类别是否一致,若一致,则“差异”为0;若不一致,则“差异”为1。训练误差是在训练集上差异的平均值,而泛化误差则是在新样本(训练集中未出现过的样本)上差异的平均值。

过拟合的产生原因是模型的学习能力相对于数据来说过于强大,欠拟合的产生原因则是 模型的学习能力相对于数据来说过于低下。暂且抛开“没有免费的午餐”定理不谈,对于“西瓜书”第1章的图1.4中的训练样本(黑点)来说,用类似于抛物线的曲线去拟合较为合理,而比较崎岖的曲线相对于训练样本来说学习能力过于强大。但是,若仅用一条直线去训练,则相对于训练样本来说,直线的学习能力过于低下。