第二节 回归分析
一、散布图
为了研究两个变量之间存在什么关系,可以画一张图,把每一对(xi,yi)看成直角坐标系中的一个点,在图中标出n个点,称这样的图为散布图(如图2-2所示)。
图2-2 散布图
二、相关系数
1.相关系数的定义
(1)定义
散布图上n个点基本在一条直线附近,但又不完全在一条直线上,则可用一个统计量来表示它们的线性关系的密切程度,这个量称为相关系数,记为r,它定义为:
其中:
注意:这里的“∑”表示“”。
【例题2.2.1】剔除一个远离回归直线的散点,r2将( )。[2008年真题]
A.不受影响 B.减小 C.增大 D.接近于0
【答案】C
【解析】如果散布图呈现n个点基本在一条直线附近,但又不完全在一条直线上,则可用一个统计量来表示它们的线性关系的密切程度,这个量称为相关系数,记为r,它定义为:r=。如果剔除一个远离回归直线的散点,则相关性增强,r2将增大。
【例题2.2.2】设两变量X和Y的观测值为(xi,yi),i=1,2,…,n,用r表示相关系数,=a+bx表示回归方程,以下结论正确的有( )。[2008年真题]
A.若r=1,则b=1
B.若r<0,则b<0
C.若r=0,则b=0
D.若r>0,则b>0
E.若r=1,则a=0
【答案】BCD
【解析】相关系数r值的不同,X和Y的相关性有:①当r=±1时,n个点完全在一条直线上,这时称两个变量完全线性相关;②当r=0时,称两个变量线性不相关,这时散布图上n个点可能毫无规律,不过也可能两个变量间存在某种曲线的趋势,回归方程的斜率为0,即b=0;③当r>0时,称两个变量正相关,这时当x值增加时,y值也有增大的趋势,则其回归方程的斜率为正,即b>0;④当r<0时,称两个变量负相关,这时当x值增加时,y值有减少的趋势,则其回归方程的斜率为负,即b<0。
【例题2.2.3】某零件的长度X和质量Y的相关系数为0.68,经技术改进后,每个零件的长度缩短0.2厘米,质量降低0.5克,新零件的长度和质量的相关系数为( )。[2006年真题]
A.0.86
B.0.50
C.0.68
D.-0.68
【答案】C
【解析】设改进后零件的长度为,那么技术改进后平均长度为同理有
,根据相关系数公式
(2)相关系数的取值范围:|r|≤1
不同的r值下点的散布的示意图如图2-3所示。
图2-3 不同r值下散布的示意图
当r=±1时,n个点完全在一条直线上,这时称两个变量完全线性相关。
当r=0时,两个变量线性不相关,这时散布图上n个点可能毫无规律,不过也可能两个变量间存在某种曲线的趋势。
当r>0时,称两个变量正相关,这时当x值增加时,y值也有增大的趋势。
当r<0时,称两个变量负相关,这时当x值增加时,y值有减少的趋势。
可以根据r的绝对值的大小去判断两个变量间线性相关的程度,|r|愈大,线性相关就愈强。
注意:x、y相互独立,它们一定不相关,但不相关的两个变量不一定相互独立。
【例题2.2.4】下列由30对数据计算得到的四个相关系数中,两变量线性相关程度最强的是( )。[2012年真题]
A.-0.90
B.0.12
C.0.37
D.0.85
【答案】A
【解析】如果散布图呈现n个点基本在一条直线附近,但又不完全在一条直线上,表示它们的线性关系的密切程度的一个统计量,记为相关系数r。可以根据r的绝对值的大小去判断两个变量间线性相关的程度,|r|愈大,线性相关就愈强。
【例题2.2.5】市场调查发现,居民收入愈高,其住房面积愈大,则居民收入和住房面积的相关系数是( )。[2012年真题]
A.在0与-1之间
B.在0与1之间
C.大于1
D.平均住房面积和平均居民收入之比
【答案】B
【解析】相关系数r介于-1与1之间。当相关系数r>0时,称两个变量正相关,这时当x值增加时,y值也有增大的趋势。
2.相关系数的检验
如果记x、y的真正的(理论的)相关系数为ρ,在x是一般变量,y服从等方差正态分布的假定下,假设:
H0:ρ=0,H1:ρ≠0
其拒绝域为:
W=﹛︱r︱>r1-α/2(n-2)﹜
其中n为样本量,α为显著性水平,r1-α/2(n-2)是检验相关系数的临界值,可查表获得。
三、一元线性回归方程
1.一元回归方程的求法
设一元线性回归方程的表达式为:
对给定的n对数据(xi,yi),i=1,2,……,n,根据这些数据去估计a与b。如果a与b已经估计出来,那么在给定的xi值上,回归直线上对应点的纵坐标为:
称为回归值,实际的观测值yi与之间存在偏差,希望求得的直线(即确定a与b)使这种偏差的平方和达到最小。即要求达到最小,根据微分学的原理,可以求出a与b:
这一组解称为最小二乘估计,其中b是回归直线的斜率,称为回归系数;a是回归直线的截距,一般称为常数项。
【例题2.2.6】设r为变量x与y的相关系数,b为y对x的回归系数,则r与b的关系有( )。[2010年真题]
A.若r=1,则b=1
B.若r=0,则b=0
C.若r=-1,则b=-1
D.若r>0,则b>0
E.若r<0,划b<0
【答案】DE
【解析】D项,r>0时两个变量正相关,回归系数b>0;E项,r<0时两个变量负相关,回归系数b<0。
求一元线性回归方程的步骤:
(1)计算变量x与y的数据和Tx,Ty;
(2)计算各个变量数据的平方和及其乘积和;
(3)按公式(2.2-2)计算Lxy,Lxx;
(4)按公式(2.2-4)求出b与a;
(5)写出回归方程
注意:由回归方程画出的回归直线一定通过(0,a)与()两点。
【例题2.2.7】y关于x的线性回归方程为,该回归直线必通过点( )。[2006年真题]
A.(0,a)
B.(0,b)
C.
D.(a,b)
E.
【答案】AC
【解析】一元回归方程的表达形式有两种:①=a+bx,当x=0时=a,必经过(0,a)点;②,也必经过点。
2.回归方程的显著性检验
检验两个变量间是否存在线性相关关系的问题便是对回归方程的显著性检验问题。
回归方程的显著性检验方法:
(1)相关系数法
对于给定的显著水平α,当相关系数r的绝对值大于临界值r1-α/2(n-2)时,便认为两个变量间存在线性相关关系,所求得的回归是显著的,即回归方程是有意义的。
(2)方差分析法
用ST表示总(离差)平方和:
用SR表示回归平方和:(由于自变量x的取值不同,当变量y与x线性相关时,x的变化会引起y的变化)
用SE表示残差平方和:(自变量x以外的因素引起的误差——随机误差)
可以证明:
它们的自由度也有分解式:
fT=fR+fE
其中:
fT=n-1,fR=1(相当于未知数的个数),fE=fT-fR
对给定的显著性水平α,当时,认为回归方程显著,即是有意义的。
【例题2.2.8】根据15对数据(x1,y1),i=1,2,…,15,建立一元线性回归方程,则残差平方和的自由度为( )。[2010年真题]
A.1
B.2
C.13
D.14
【答案】C
【解析】ST、SA、Se的自由度分别用fT、fA、fe表示,则:fT=n-1=15-1=14,fA=1,fe=fT-fA=14-1=13。
3.利用回归方程进行预测
如果给定x的值为x0,那么y的预测值为:
概率为1-α的y的预测区间:
其中δ满足,当数据给定后,δ的值与x0的值有关,可以证明δ的精确表达为:
。
其中,t1-α/2(n-1)是自由度为n-2的t分布的1-α/2分位数,。示意图如图2-4所示。当n较大时(如n>30),t分布近似为正态分布,如果x0与相差不大,δ可以近似取为:。
图2-4 预测区间的示意图
利用回归方程进行预测的步骤
(1)将给定的x0的值代入所求得的回归方程,得到预测值;
(2)求概率为1-α的预测区间;
①先求σ的估计;
②由给定的α,查t分布表得的值;
③计算δ的值,;
④写出预测区间。
四、可化为一元线性回归的曲线回归
1.确定曲线回归方程形式
常用的确定曲线回归方程形式的方法有两种,一是根据专业知识;二是根据数据所画的散布图,将它与一些标准的函数图像进行比较后加以选择。常见的函数图形如图2-5所示。
图2-5 常见的函数图形
2.曲线回归方程中参数的估计
采用线性化的方法,即通过变换将它化为一元线性回归方程的形式,再用前面介绍的方法来获得参数的估计。
3.曲线回归方程的比较
选择曲线回归方程常用的准则:
(1)要求相关指数R大,其平方(决定系数)定义为:
对于不同的曲线回归方程,其残差平方和是不同的,要求小的为好,也就是要求R2大。
(2)要求标准残差s小,其定义为:
由于要求残差平方和小为好,也就是要求s小。