第6章 多元回归分析:深入专题
6.1 复习笔记
一、数据的测度单位对OLS统计量的影响
1.数据的测度单位对OLS统计量无实质性影响
当对变量重新测度时,系数、标准误、置信区间、t统计量和F统计量改变的方式,都不影响所有被测度的影响和检验结果。怎样度量数据通常只起到非实质性的作用,如减少所估计系数中小数点后零的个数等。通过对度量单位明智的选择,可以在不做任何本质改变的情况下,改进所估计方程的形象。
对任何一个xi,当它在回归中以log(xi)出现时,改变其度量单位也只能影响到截距。这与对百分比变化和(特别是)弹性的了解相对应:它们不会随着y或xi度量单位的变化而变化。
2.系数
原始方程:
减去平均方程,就可以得到:
令为因变量的样本标准差,为x1的样本标准差,为x2的样本标准差,等等。然后经过简单的运算就可以得到方程:
将每个变量都用其z得分标准化,就得到一些新的斜率参数。截距项则完全消失。
省略下标i改写标准化的方程为:
其中:
传统上称这些为标准化系数或系数。系数的含义为:如果xj提高一倍的标准差,那么就变化倍的标准差。以标准差为单位,使得回归元的度量单位无关紧要,因此这个方程把所有解释变量都放到相同的地位上。在一个标准的OLS方程中,不能只看系数的大小,就断定具有最大系数的解释变量就“最重要”,因为通过改变xi的度量单位,就可以任意改变系数的大小。但当每个xi都被标准化之后,比较由此得到的系数就具有说服力。(注:不论是使用标准化还是未标准化的变量都不会影响变量的统计显著性,t统计量在两种情形中是相同的。)
二、对函数形式的进一步讨论
1.对数式模型
(1)一般估计模型举例及解释
一般估计模型为:
固定x1,有
使用指数函数和对数函数的简单数学性质,可给出所预计的y的精确百分比变化为:
其中乘以100后,就将比例变化转化成了百分数变化。
(2)使用自然对数的优势
①由于斜率系数不随测度单位而变化,所以可以忽略以对数形式出现的变量的度量单位;
②当y>0时,使用log(y)作为因变量的模型,通常比使用y的水平值作为因变量的模型更接近CLM假定;
③严格为正的变量,其条件分布常常具有异方差性或偏态性,取对数后,即使不能消除这两方面的问题,也可以使之有所缓和;
④取对数通常会缩小变量的取值范围,使得估计值对因变量或自变量的异常(或极端)观测不是那么敏感。
(3)使用对数的劣势
①使用对数所受到的一个限制是变量不能取零或负值;
②使用对数形式的因变量有一个缺陷,即更难于预测原变量的值。
2.含二次式的模型
考虑最简单的情形:
其中,并不能度量y相对于x的变化,因为保持x2不变而改变x是毫无意义的。如果将估计方程写成:
那么就有如下近似:
所以
这说明,x和y之间的斜率取决于x的值,所估计的斜率是
当x=0时,可以解释为从x=0到x=1的近似斜率,而其他情况下必须考虑第二项。
如果估计的,,则x对y的影响不断递减,从大于0变为小于0的转折点为x的系数和x2系数的两倍之比:
3.含有交互作用项的模型
考虑包含两个解释变量和一个交互项的模型:
将模型重新参数化为:
其中,和分别为x1和x2的总体均值。很容易看出,现在x2的系数,便是在x1的均值处x2对y的偏效应()。因此在构造交互项之前,先从变量中减去其均值(通常是样本均值),则原始变量的系数就具有有用的解释了。
三、拟合优度和回归元选择的进一步探讨
1.对R2的理解
经典线性模型假定中没有要求R2必须大于某个特定值。R2无非就是y的变异中有多少能用总体中的解释。R2比较小只是意味着对影响的因素没有得到解释,但并不意味着u中的因素与自变量相关。零条件均值假定MLR.4只是确定是否得到了自变量其他条件不变之影响的无偏估计量,而R2的大小与此则没有直接关系。
一个较小的R2确实意味着,误差方差相对y的方差太大了,这又意味着很难精确地估计。大样本容量可能抵消较大的误差方差:如果有足够的数据,即便没有控制许多无法观测的因素,也可能精确地估计偏效应。
在方程中增加变量时,R2的相对变化则十分有用:检验联合显著性的F统计量,关键取决于无约束模型和约束模型的R2之差。
2.调整R2
其中,SSR是残差平方和,而SST是总平方和。
定义为y的总体方差,为误差项u的总体方差,则总体R2被定义为:
即R2是y的变异在总体中能被自变量解释的比例。
由于SST/n-1是的无偏估计量,所以可以用SST/n-1来代替SST/n。又因为
故可以得到调整R2:
R2与调整R2(即)之间的关系为:
调整R2的作用在于它为在一个模型中增加自变量施加了惩罚。因为在回归方程中增加一个新的自变量不可能使得R2下降,这是因为随着更多自变量的加入,SSR不会上升。但是明显取决于自变量的个数,在一个回归方程中增加一个自变量,虽然SSR会下降但是自由度也会下降,所以SSR/(n-k-1)可能上升也可能下降。故在回归方程中增加一个新的自变量(或一组自变量),只有当新变量的t统计量(或新变量组的联合显著性F统计量)在绝对值上大于1,才会有所提高。
3.利用调整R2在两个非嵌套模型中进行选择
在两个非嵌套模型之间进行选择时,利用有一个重要的局限性:不能用它在因变量的不同函数形式之间进行选择。不论是R2还是,所度量的都是因变量总变异中能被自变量解释的比例。而y和log(y)的总变异是不同的,将因变量形式不同的回归中所得到的调整R2进行比较,是不能在哪个模型拟合得更好这个问题上提供任何信息的。两个非嵌套模型拟合的是两个完全不同的因变量。
4.回归分析中控制了过多的因素
如果过分强调拟合优度,就会在回归模型中无所顾忌地控制一些不应该控制的因素。在多元回归中控制因素过多的原因通常是担心遗漏重要变量可能带来的潜在偏误。但控制过多的因素可能使多元回归的其他条件不变的性质受到影响。在有些情形中,某些因素应该随着一个政策变量的改变而有所变化,保持这些因素不变就没有意义。
5.增加回归元以减少误差方差
有些自变量尽管与因变量相关,但也不应该包括在回归模型中。在回归中增加一个新的自变量会加剧多重共线性的问题。另一方面,由于从误差项中取出了一些因素作为解释变量,所以总可以减少误差方差。
对于那些既影响y而又与所有所关心的自变量都无关的自变量,总是应该把它们包含进来。增加这样一个变量,不会导致总体出现多重共线性,但却可以减小误差方差。在大样本容量的情况下,所有OLS估计量的标准误都将减小。
四、预测和残差分析
1.预测的置信区间
假设有如下估计方程:
令分别表示k个自变量中每一个自变量的具体值,对参数
进行估计,可得其估计量为:
为了得到的一个置信区间,需要知道的标准误,在自由度比较大的情况下可以利用经验法则构造一个95%的置信区间。为了得到的标准误,可以在回归方程中包含,将代入方程得到:
再将y对,,…进行回归,则截距项的标准误就是的标准误。
预测区间
令为新的自变量值,且u0为观测不到的误差。因此有:
从OLS回归线估计y0的期望值:
预测误差为:
由于是无偏的,所以
由于,u0和不相关,则预测误差的方差为:
定义的标准误差为:
则可知服从一个自由度为n-(k+1)的t分布。于是:
其中,t0.025为tn-k-1分布中第97.5个百分位。对很大的n-k-1,记t0.025≈1.96。
代入,经整理则给出y0的一个95%预测区间为:
2.残差分析
残差分析指检查个体观测值并分析因变量的实际值是高于还是低于预测值,即考察个别观测的残差。
3.当因变量为log(y)时对y的预测
给定OLS估计量,得logy的预测值为:
预测y就是将log(y)的预测值转换成指数函数值:
实际上,它将系统地低估y的预测值。因为如果模型服从CLM假定MLR.1~MLR.6,那么就可以证明:
如果,那么exp(u)的期望值就是。
为了预测y,需要进行一个简单的调整:
其中,是的无偏估计量。因为,所以>1。对很大的,这个调整因子可能会显著地大于1。
虽然预测不是无偏的,但它却是一致的。如果只假定u独立于解释变量,那么就有:
其中,为exp(u)的期望值,并肯定大于1。
给定一个估计值,就能将y预测为:
其中
是的一个一致估计量,但它不是无偏的,因为在一个非线性的函数中用取代了ui。
基于一个过原点的简单回归,可以得到的另一个不同的估计值。定义:
以于是,就是将yi对进行简单回归(不含截距)所得到的普通最小二乘斜率估计值:
把称为的回归估计值。和一样,是一致的,但不是无偏的。
4.当因变量为log(y)时对y的预测步骤
(1)从logy对的回归中得到拟合值和残差;
(2)利用方程求出或利用求出;
(3)对于给定的,求出;
(4)利用得到预测值(利用或)。