§3.3 多元线性回归模型的检验
一、回归系数的显著性检验——t检验
回归分析的目的不仅仅是得到βj的估计值,而同时要对总体回归函数中的每个βj的假设进行检验。总体回归模型为
如果式(3.51)满足经典假定,则是经典线性回归模型。我们知道,βj是总体参数,是未知数,总体信息未知时,βj是不可测的。但是,我们可以对βj的值做出假设,通过统计推断来检验我们的假设。
可以证明,在ui服从正态分布及经典假定条件下,
服从自由度为n-k的t分布。k为总体回归模型的参数个数,βj为总体回归参数,为βj的普通最小二乘估计量,se()为的标准误。
在计量经济分析中,我们最关心的是解释变量Xj是否与被解释变量Y线性相关。因此,我们的主要目的在于检验原假设
式(3.53)中,j对应k-1个解释变量中的任意一个。βj是第j个变量的偏回归系数,度量了在所有其他解释变量不变的条件下,Xj对Y的影响。即Xj变化一个单位,对Y的期望值的影响。如式(3.53)成立,即βj=0,则意味着Xj对Y的期望值没有任何影响。例如,考虑工资模型
其中Wi为工资,ei为受教育水平,EPi为工作经验。原假设H0:β3=0意味着在受教育程度相同的条件下,工作经验对工资没有影响。这个假设价值很大,如果它是正确的,那么就是说个人在任现职之前的工作经验不会影响他的工资水平。如果β3>0,则意味着以前的工作经验对现在的工资水平有促进作用。
在计量经济分析中,备择假设通常设定为
式(3.55)表示Xj对Y有显著影响,βj可正可负。
与一元回归分析相同,对βj进行检验使用如下的t统计量:
给定和标准误se(),该t统计量就很容易获得。回归分析软件都直接报告t统计量及其标准误。
在式(3.56)中,se()>0,所以t与的符号相同。在se()给定的条件下,|t|与||成正比。我们要检验的是原假设H0:βj=0,因为βj不可测,我们只能用βj的无偏估计量来进行统计推断。在实际分析中,点估计值不可能正好为0,的样本值与0相差越远,拒绝原假设H0:βj=0的可能性越大。由于在估计中存在抽样误差,所以的大小就必须由其抽样误差来衡量,即由的标准误se()来衡量。因此,t度量了被估计的与0相差多大的值充分远离0将导致拒绝原假设H0:βj=0,拒绝的标准决定于所选择的显著性水平α。
我们所进行的假设检验是关于总体参数的,我们不是在检验一个来自特定样本的估计值。因此,将一个原假设表达成“H0:=0”,或者在样本中的参数估计值是0.205时说“H0:0.205=0”,都是毫无意义的,我们要检验的是未知总体参数βj是否为0。
多元回归中的t检验决策规则与一元回归相同。
例3.3 工资回归模型。
例3.1中的工资回归模型如下:
其中Y为工资,X2为受教育年限,X3为工龄,X4为现任职务的任期。
查t分布表可知,5%显著性水平下的临界值t0.025(522)=1.96.模型中参数的t统计量均大于临界值t0.025(522)=1.96,每一个估计的偏回归系数都是统计上显著的,即显著地异于0。也就是说,我们拒绝每个原假设。这就意味着模型中的三个解释变量:受教育年限、工龄和现任职务的任期对被解释变量-工资都有显著的影响。
二、回归模型的整体显著性检验——F检验
我们除了要判断每一个偏回归系数的显著性外,还需要对多元回归模型的总体显著性进行判断。多元回归模型的总体显著性就是对原假设
进行检验。检验的目的就是判断被解释变量Y是否与X2,X3,……,Xk在整体上有线性关系。
例如,对于二元回归模型
若原假设H0:β2=β3=0成立,则表明Y与X2,X3没有线性关系,X2,X3对Y都没有显著的线性影响。这个回归模型应为
式(3.60)表明,式(3.59)的回归模型是不能成立的。在整体显著性检验中对应的备择假设为H1:β2和β3不同时为0。备择假设的组合有三种结果:
(1)β2≠0且β3≠0;
(2)β2≠0且β3=0;
(3)β2=0且β3≠0。
不论这三种情况的哪一种发生,式(3.59)均成立,称为回归模型整体显著。
在一元回归模型中,只有一个解释变量,对个别回归系数β2的t检验就是对回归模型的整体显著性检验。而在多元回归模型中,可以证明,对回归系数的逐一显著性检验并不能代替对回归模型的整体显著性检验。
可以证明,对于多元线性回归模型:
在ui服从正态分布和原假设H0:β2=β3=……=βk=0条件下,变量
服从自由度为k-1和n-k的F分布,即
从F的表达式可以看出,如果原假设H0:β2=β3=……=βk=0是真实的,则表明Y与X2,X3,……,Xk整体上无线性关系,Y的变异全部来源于干扰项ui,F统计量的值较小。如果原假设H0:β2=β3=……=βk=0是虚假的,则表明Y与X2,X3,……,Xk整体上有线性关系,X2,X3,……,Xk对Y有显著影响,则解释平方和ESS要远远大于残差平方和RSS,从而得到一个较大的F统计量。因此,式(3.63)的F统计量为我们提供了检验多元回归模型整体显著性的一种方法。利用F分布,在给定显著性水平α下,查F分布表可得Fα(k-1,n-k),如果F>Fα,我们就拒绝H0,如果F<Fα就不拒绝H0。至此,我们得到多元回归模型的整体显著性检验决策规则:
(1)设定假设:
原假设H0:β2=β3=……=βk=0;
备择假设H1:βj不全为0,j=2,3,……,k
(2)计算F统计量:
(3)在给定显著性水平α的条件下,查F分布表得临界值Fα(k-1,n-k)。
(4)判断:
如果F>Fα(k-1,n-k),则拒绝H0,接受备择假设H1。
如果F≤Fα(k-1,n-k),则不拒绝H0。
可以证明F统计量与判定系数R2的关系如下:
式(3.65)表明,F统计量与R2是同向变化的。当R2=0时,F=0;R2越大,F值也越大。R2=1时,F无穷大。F检验即是对回归模型整体显著性的检验,也是对判定系数R2的一个显著性检验。
例3.4 在例3.3中,R2=0.316,n=526,k=4,则
给定显著性水平α=5%,第1自由度k-1=3,第2自由度n-k=522,查F分布表可得F0.05(3,522)=2.60。又因为F=80.3887>F0.05(3,522)=2.60,所以,工资回归模型是整体显著的,工资回归模型成立。
例3.5 人口寿命回归模型。
表3.1给出了1992年亚洲各国人均寿命Y,按购买力平价计算的人均GDP X2,成人识字率X3(%)和一岁儿童疫苗接种率X4(%)。在一个经济系统中,人口寿命与生活水平、基本教育普及率和儿童疫苗接种状况有密切关系。因此,要研究人口寿命问题,可将模型设定为
表3.1 1992年亚洲各国(地区)人的发展指标
式(3.66)中,Y是人均寿命,X2为人均GDP, X3是成人识字率,X4为一岁儿童疫苗接种率。
根据表3.1的样本数据,使用普通最小二乘法估计参数,得到样本回归模型
人口寿命回归模型评价:
(1)判定系数R2=0.889,说明解释变量人均GDP、成人识字率、一岁儿童疫苗接种率解释了人口寿命总变异的88.9%。
(2)回归系数的检验。
式(3.67)样本回归模型中,自由度为22-4=18,取显著性水平α=5%时,t0.025(18)=2.101。,,,的t统计量分别为
可以看出,4个t统计量均大于t0.025(18),所以各偏回归系数均显著,说明模型中的解释变量均对被解释变量——人口寿命有显著影响。人均GDP每增加100美元,人口平均寿命增加0.076年;成人识字率每增加1个百分点,人口平均寿命增加0.128年;一岁儿童疫苗接种率增加1个百分点,人口平均寿命增加0.210年。
实际上,从式(3.67)给出的实际显著性p值可以看出,各偏回归系数实际显著性水平均小于0.01,也就是说,即使是1%的显著性水平下,各偏回归系数依然是显著的。
(3)总体显著检验——F检验。
式(3.67)中已给出F=47.891,已知k=4,n=22,自由度为k-1=3和n-k=18。取显著性水平α=0.01,查F分布表可知F0.01(3,18)=5.09。F>F0.01(3,18),因此拒绝原假设H0:β2=β3=……=βk=0,接受备择假设H0:βj不全为0,j=2,3,……,k。说明人口人均寿命与人均GDP、成人识字率、一岁儿童疫苗接种率整体上有线性关系,人均GDP、成人识字率、一岁儿童疫苗接种率对人口人均寿命有显著影响。