上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
第3章 线性回归
3.1 问题引入
回归分析是一种预测性建模技术,主要用来研究因变量(yi)和自变量(xi)之间的关系,通常被用于预测分析、时间序列等。
简单来说,回归分析就是使用曲线(直线是曲线的特例)或曲面来拟合某些已知的数据点,使数据点离曲线或曲面的距离差异达到最小。有了这样的回归曲线或者曲面后,我们就可以对新的自变量进行预测,即每次输入一个自变量后,根据该回归曲线或曲面,我们就可以得到一个对应的因变量,从而达到预测的目的。
以二维数据为例,假设有一个房价数据如表3-1所示。
表3-1 房价数据
将上面的数据可视化后可以得到图3-1。
图3-1 房价数据可视化
假设特征(横轴)和结果(纵轴)满足线性关系,则线性回归的目标就是用一条线去拟合这些样本点。有了这条趋势线后,当新的样本数据进来时(即给定横轴值),我们就可以很快定位到它的结果值(即给定的横轴值在预测直线上对应的纵轴值),从而实现对样本点的预测,如图3-2所示。
图3-2 线性回归模型拟合数据