统计挖掘与机器学习:大数据预测建模和分析技术(原书第3版)
上QQ阅读APP看书,第一时间看更新

3.2 相关系数

相关系数记作r,是测量两个变量之间的直线度或线性关系的量值。相关系数的取值范围是-1到+1。下面这些要点用于解释相关系数:

1)0表示不存在线性关系。

2)+1表示完美的正线性关系:一个变量的值增加时,另一个变量的值按照一个准确的线性法则同时增加。

3)-1表示完美的负线性关系:一个变量的值增加时,另一个变量的值按照一个准确的线性法则减少。

4)取值在0~0.3(-0.3~0)之间表示存在微弱的正(负)线性关系。

5)取值在0.3~0.7(-0.7~0.3)之间表示存在中等程度的正(负)线性关系。

6)取值在0.7~1.0(-1.0~-0.7)之间表示存在明显的正(负)线性关系。

7)r2是一个变量的变化能够被另一个变量解释的百分比,即这两个变量共同拥有的变化百分比。

8)线性假设:相关系数要求所考虑的两个变量之间存在线性关系。如果已知它们具有线性关系,或者两个变量表现出的模式看上去是线性的,则相关系数可以提供这种线性关系强弱的一个可靠度量指标;如果知道这种关系是非线性的,或者观察到的现象似乎不是线性的,则这个相关系数没有用,或者至少是有疑问的。

两个变量X和Y的相关系数的计算简单明了。令zX和zY分别为经过标准化处理之后的X和Y,也就是说,zX和zY的均值(mean)都等于0,标准差(std)等于1。

这个标准化处理过程见公式3.1和公式3.2:

相关系数是标准化值对(zXi,zYi)的乘积的平均值,如公式3.3:

其中n为样本量。

表3.1用5个观察值简单演示了相关系数的计算过程。列zX和zY分别是X和Y经过标准化处理后的值。最后一列是这两个值的乘积。这些乘积之和为1.83,其平均值(除以n-1而不是n)等于0.46。所以rXY=0.46。

表3.1 相关系数的计算