4.1 线性回归
回归函数可以选择的表示很多。但是根据奥卡姆剃刀准则,应该选择简单而又可行的回归函数。显然,如果可行,线性函数是最简单的回归函数。当回归函数F采用线性模型表示时,我们称该类模型为线性回归(linear regression)。如图4.1所示的简单一元线性回归模型,图中圆圈表示数据点,一元线性回归就是求图中的直线,这条直线能够较好地表示输入数据和输出数据的关系。一元线性方程有如下形式:
其中,系数w,b∈ℝ称为回归系数(regression coefficient),根据类一致性准则,为了最小化D(f(X),F(X)),最常用的方法是采用最小二乘的形式,所以,一元线性回归函数的损失函数为:
其中为对应的观测值,此时,求解一元线性回归函数的问题转化为一个优化问题,即求解:
图4.1 一元线性回归示意图
为了最优化目标函数(4.4),对b和w求偏导,令导数为零,即:
可求得:
其中。
下面举例说明该回归模型的使用方法。
例4.1 假设我们试图对某一社区中个人的受教育程度(用表示)对年平均收入(用表示)的影响进行研究。我们从该社区中随机收集到11名个体的受教育年限(单位:年)和年平均收入(单位:千元)数据(见表4.1)。请利用该数据判断最佳线性回归模型。(精确到小数点后两位)
表4.1 某小区11名个人的年平均收入与受教育年限
解 因为已知数据只有一个输入特征,所以设回归函数为y=wx+b,利用式(4.6),计算各分量。由表4.1可得:
所以,
故所求的线性回归方程为:
当输入数据有p个特征时,给定如下方程进行数据拟合
其中为输入的p维列向量,w∈ℝp为方程系数,b为截距。为了最小化D(f(X),F(X)),最常用的方法是采用最小二乘的形式。对于N个样本,则给定误差平方为
为了表示方便,令A为(p+1)×N的矩阵且第一行为全1的向量,A的第二行至p+1行数据对应于训练数据的输入,B∈ℝN为N个训练数据的输出,w*=(b,wT)T∈ℝp+1,则式(4.11)可写成如下形式
最小化上式求解w*就是对w求偏导数,有
若A为行满秩矩阵,则AAT为正定矩阵,因此可求得w*的闭式解为:
以上介绍的回归模型输出只有一个一元变量。当输出本身就是多个(d个)一元变量,会获得如下的线性模型
其中B∈ℝd×N为输出矩阵,A∈ℝ(p+1)×N为输入矩阵,并且其第一行为全1,W∈ℝ(p+1)×d为系数矩阵。为了最小化D(f(X),F(X)),与式(4.11)的形式类似,有
通过对W求导,可以获得其闭式解为
线性回归模型是最简单的回归模型,可以很简单地扩充成广义线性模型,如,g是一个可逆的单调函数。比较常用的是对数线性回归,此时,