§2.2 一元线性回归模型
一、引例
回归分析就是根据解释变量的已知或给定值去估计或预测被解释变量的总体均值。为了说明这一过程,我们以一个人为假想例来阐述这个问题。
假定我们要研究一个局部区域的居民消费问题,该区域共有80户家庭,将这80户家庭视为一个统计总体。我们研究每月家庭消费支出Y与每月可支配收入X的关系。就是说,已知家庭每月可支配收入,要预测家庭每月消费支出的总体平均水平。为此,将80户家庭分为10组。表2.1给出了人为数据。
表2.1 居民收入、消费数据
从表2.1中可以看出,对于每月1000元收入的7户家庭,每月消费支出为700元到940元不等。同样,当X=3000元时,9户家庭的每月消费支出在2180元到2660元之间。表2.1给出了以X的给定值为条件的Y的条件分布。
对于Y的每一条件分布,我们能计算出它的条件期望,记为E(Y|X=Xi),即在X取特定值Xi时Y的期望值。例如,X=1000时,Y的期望值为
将表2.1中的数据在直角坐标系中描出,则得到图2.2的散点图。该图表明了对应于各X值的Y的条件分布。虽然个别家庭的消费支出都有变异,但图2.2清楚地表明随着收入的增加,消费支出平均地说也在增加。就是说,散点图启示我们,Y的条件均值随X增加而增加。如果我们观察图2.2中那些代表Y的各个条件均值的粗圆点,则表明这些条件平均值落在一条有正斜率的直线上。我们称这条直线叫作总体回归线,它表示Y对X的回归。
图2.2 收入、消费散点图
总体回归线就是当解释变量取给定值时被解释变量的条件均值或期望值的轨迹。图2.2表明,对每一Xi都有Y值的一个总体和一个相应的均值。而回归线是穿过这些条件均值的线。
二、总体回归函数
从图2.2我们可以看出,条件均值E(Y|Xi)是Xi的函数,即
其中f(Xi)表示解释变量Xi的某个函数。称式(2.1)为总体回归函数,简称总体回归。它表明在给定Xi下Y的分布的总体均值与Xi有函数关系,就是说它给出了Y的均值是怎样随X值的变化而变化的。在我们的引例中,E(Y|Xi)是Xi的一个线性函数。
函数f(Xi)采取什么函数形式,是一个需要解决的重要问题。在实际经济系统中,我们不会得到总体的全部数据,因而就无法根据已知数据确定总体回归函数的函数形式。同时,对总体回归函数的形式只能根据经济理论与经验去推断。例如,我们可以假定消费支出与收入有线性关系,则总体回归函数为
其中β1和β2为未知且固定的系数,β1为截距系数,β2为斜率系数,统称为回归系数。称式(2.2)为线性总体回归函数。
三、线性的含义
1.对变量为线性
对线性的第一种解释是指Y的条件期望是Xi的线性函数,例如式(2.2)就是线性回归函数,该回归线是一条直线。按这种解释,E(Y|Xi)=β1+β2X2i就不是线性的,因为E(Y|Xi)对Xi的一阶导数不是常数。
2.对参数为线性
对线性的第二种解释是指Y的条件期望E(Y|Xi)是参数β的一个线性函数,它可以是,也可以不是变量X的线性函数。例如,E(Y|Xi)=β1+β2X2i是线性回归函数,但E(Y|Xi)=则不是线性回归函数,而是非线性回归函数。
在本书中,主要考虑的是对参数为线性的回归模型,对解释变量X则可以不是线性的。
四、总体回归函数的随机设定
从图2.2可清楚地看到,随着家庭收入Xi的增加,家庭平均消费支出E(Y|Xi)也在增加,这表明了Xi与Y的平均水平的关系。我们想知道对于具体家庭而言,消费支出Y与它的收入水平Xi的关系。从表2.1和图2.2可以看出,就个别家庭而言,收入水平增加,消费支出不一定会增加。例如从表2.1可以看到,对于每月3000元的收入水平,有一户家庭的消费支出为2180元,少于每月收入为2500元的两户家庭的消费支出(2200元和2260元)。但应看到,每月收入为3000元的家庭的平均消费支出大于每月收入2500元的家庭的平均消费支出(2420元大于2020元)。从图2.2可以看到,这些给定收入水平Xi的个别家庭,他们的消费支出处于在该收入水平的家庭平均消费支出左右,也就是围绕着它的条件均值。我们把个别的Yi围绕它的期望值的离差表示如下:
其中离差ui是一个不可观测的可正可负的随机变量,我们把ui称为随机干扰项或随机误差项。
在式(2.3)中,给定收入X的水平,个别家庭的消费支出,可表示为两个成分之和:
(1)E(Y|Xi)代表相同收入水平的所有家庭的平均消费支出。这是系统性或确定性成分。
(2)ui代表所有可能影响Y,但又未能包括到回归模型中的被忽略变量的代理变量。这是随机性或非系统性成分。
假设E(Y|Xi)对Xi为线性的,则
式(2.4)表示一个家庭的消费支出线性地依赖于它的收入加随机干扰项。
例如,给定X=1000,各家庭的消费支出可表达为:
五、随机误差项u的意义
随机误差项u是代表所有对Y有影响但未能包括在回归模型中的那些变量的替代变量。那么,为什么不能构造一个含有尽可能多的变量的多元回归模型?因为受理论和实践条件的限制而必须省略一些变量,其理由如下:
(1)理论的欠缺:虽然有决定Y行为的理论,但常常是不能完全确定的,理论常常有一定的含糊性。我们可以肯定每月收入X影响每月消费支出Y,但不能确定是否有其他变量影响Y,只好用ui作为模型所忽略的全部变量的替代变量。
(2)数据的欠缺:即使能确定某些变量对Y有显著影响,但由于不能得到这些变量的数据信息而不能引入该变量。例如,从经济理论分析,家庭财富量是影响家庭消费的重要因素,应该引入该变量作为解释变量。但是,通常我们得不到有关家庭财富的数据。因此,我们只得把这个很重要的解释变量舍弃掉。
(3)核心变量与非核心变量:例如,在引例的居民消费模型中,除了收入X1外,家庭的人口数X2、户主宗教信仰X3、户主受教育水平X4也影响家庭消费支出。但很可能X2、X3、X4合起来的影响也是很微弱的,是一种非系统的或随机的影响。从效果与成本角度来看,引入它们是不合算的。所以,人们把它们的联合效用当作一个随机变量来看待。
(4)人类行为的内在随机性:即使我们成功地把所有有关的变量都引进到模型中来,在个别的Y中仍不免有一些“内在”的随机性,无论我们花了多少力气都解释不了的。随机误差项ui能很好地反映这种随机性。
(5)节省原则:我们想保持一个尽可能简单的回归模型。如果我们能用两个或三个变量就基本上解释了Y的行为,就没有必要引进更多的变量。让ui代表所有其他变量是一种很好的选择。
六、样本回归函数
在实际回归分析中,我们无法获得像引例中那样的总体数据,而只能获得对应于某些固定X的Y值的一个样本。因此我们只能根据抽样信息估计总体回归函数。
我们从表2.1随机抽取对应于固定X值的Y值的一个样本如表2.2所示,对应于给定的每个Xi值只有一个Yi值。为了对比分析,按同样的方法再抽取另一个样本,如表2.3所示。
表2.2 总体的一个随机样本
表2.3 总体的另一个随机样本
我们可以看出,两个样本存在着差异,这是由于抽样的随机性而造成的波动。
将表2.2和表2.3的数据描点,得到图2.3。在这个散点图中画两根样本回归线以尽好地拟合这些散点。
S1是根据第一个样本画的,S2是根据第二个样本画的。那么,两条样本回归线中哪一条代表“真实”的总体回归线呢?在未知总体数据的情况下,我们不可能知道哪一条代表真实的总体回归线。图2.3中的回归线称为样本回归线。因抽样波动,它们都是总体回归线的一个近似。一般地讲,由几个不同的样本会得到几个不同的样本回归线,通常这些样本回归线会彼此不同。
根据任一样本,我们可得样本回归线,其函数形式为
图2.3 两个不同样本的回归线
其中为E(Y|Xi)的估计量,为β1的估计量,为β2的估计量。
正如总体回归函数,样本回归函数也存在随机形式:
其中ei为残差项。概念上,ei类似于ui,并可把它当作ui的估计量。将ei引入样本回归函数中,其理由与总体回归函数中引入ui是一样的。
综上所述,我们往往根据总体的一个样本去估计总体参数。回归分析中的主要目的就是根据样本回归函数
来估计总体回归函数
由于抽样的波动,我们根据样本回归函数估计出来的总体回归函数只能是一个近似结果。因此,怎样构造样本回归函数能使尽可能接近真实的βj就成为回归分析的核心。