4.2 课后习题详解
一、习题
1.下面哪种因素可能导致通常OLS的t统计量无效(即在H0下不服从t分布)?
(i)异方差性;
(ii)模型中两个自变量之间的样本相关系数达到0.95;
(iii)遗漏一个重要的解释变量。
答:(i)和(iii)可能导致通常OLS的t统计量无效。同方差性是CLM假定之一。遗漏一个重要的变量违背了假定MLR.3。
(ii)CLM假定除了排除相关系数等于1的情况外,并没有涉及自变量之间的相关性。
2.考虑一个用企业年销售额、股本回报率(roe,以百分数表示)和企业股票的回报(ros,以百分数表示)来解释CEO薪水的如下方程:
(i)用模型参数来表述如下原假设:在控制了sales和roe后,ros对CEO的薪水没有影响。再给出备择假设的参数表述:股票市场更好的业绩会提高CEO的薪水。
(ii)使用CEOSAL1.RAW中的数据,通过OLS可以得到如下方程:
如果ros提高50个百分点,预计salary会提高多大比例?ros对salary具有实际上很大的影响吗?
(iii)检验ros对salary没有影响的原假设,备择假设是具有正效应。在10%的显著性水平上进行检验。
(iv)你最后会在一个用企业业绩表示CEO报酬的模型中包括ros吗?给出你的解释。
答:(i)原假设为:;备择假设为:。
(ii)如果ros提高50个百分点,预计salary会提高
因此ros对salary的影响实际上是很小的。
(iii)自由度为n-k-1=209-3-1=205,10%的显著性水平下,单侧检验的临界值为1.282。t统计量为:
小于临界值,因此在10%的显著水平上不能拒绝虚拟假设,即ros对salary没有影响。
(iv)会。一方面,从经济角度而言,认为股票收益率影响CEO报酬是合理的;基于样本而言,估计的ros系数看起来等于0的原因可能是抽样偏误所导致;另一方面,在模型中包含ros不会造成任何损害,这取决于它与其他的自变量之间的相关关系。
3.变量rdintens是研发支出(R&D)占销售额的百分比。销售额以百万美元度量。变量profmarg是利润占销售额的百分比。
利用RDCHEM.RAW中32家化工企业的数据,估计如下方程:
(i)解释log(sales)的系数。特别地,如果sales增加10%,估计rdintens会变化多少个百分点?这在经济上是一个很大的影响吗?
(ii)检验假设R&D的强度不随sales而变化,备择假设是,它随着销售额的增加而提高。在5%和10%的显著性水平上进行这个检验。
(iii)解释profmarg的系数,它在经济上显著吗?
(iv)profmarg对rdintens是否有统计显著的影响?
答:(i)保持profmarg不变,。因此,如果,。估计rdintens会变化3个百分点,相对于sales的一个比较大的比例变动,对rdintens并不是一个很大的影响。
(ii)原假设:,备择假设为:。是log(sales)的系数。t统计量为:。进行单侧检验,在5%的显著性水平上,自由度为29,临界值为1.699,因此在该显著性水平上不能拒绝原假设。但是在10%的显著性水平上,临界值为1.311,小于t统计量,拒绝原假设,即R&D的强度随着销售额的增加而提高。
(iii)profmarg的系数在经济上显著。根据先验经验,当利润越高,无论是出于避税目的还是提升企业自主创新能力的需要,研发支出都会越高,因此profmarg的系数是正的,符合一般规律。
(iv)profmarg对rdintens的影响统计不显著。因为其t统计量等于1.087,小于在10%的显著性水平上单侧检验的临界值。
4.租金率是否受到一个大学城里学生人数的影响呢?令rent表示美国一个大学城里单位租借面积的平均月租金,pop表示城市总人口,avginc表示城市平均收入,pctstu表示学生人数占总人口的百分比。一个检验某种关系的模型是
(i)表述原假设:在其他条件不变的情况下,学生人数相对于总人口的大小,对月租金没有影响。并表述有影响的备择假设。
(ii)你预期和具有什么样的符号?
(iii)利用RENTAL.RAW中64个大学城在1990年的数据所估计的方程为
“总人口增加10%将伴随着租金提高约6.60%”的说法有什么不妥?
(iv)在1%的显著性水平上检验第(i)部分陈述的假设。
答:(i)原假设为:;备择假设:。
(ii)其他条件相同的情况下,总人口增加使租房需求增加,从而租金增加。当平均收入更高时,对整体住房的需求增加,推高了房地产的成本,包含租金率。因此和都是正的。
(iii)log(pop)的系数表示的是弹性,正确的说法应该是:总人口增加10%,租金将提高0.66%。
(iv)自由度为60,1%的显著性水平下,双侧检验的临界值为2.66。t统计量是3.29,大于临界值,因此拒绝虚拟假设,统计显著地不等于0。
5.使用MSUECON.RAW中的数据估计如下方程:
其中,msugpa是密歇根州立大学的平均绩点,hsgpa为高中GPA,actmth是ACT数学成绩,acteng是ACT英语成绩。
(i)利用标准正态近似,求出在置信水平为99%的置信区间。
(ii)相对于双侧备择假设,你能在1%的显著性水平上拒绝假设H0:吗?对H0:呢?
(iii)令actsum为数学和英语测试的成绩,actsum=actmth+acteng,用actsum替代acteng,则有
你能在任何合理的置信水平上拒绝H0:吗?请解释。
答:(i)标准正态分布的99%的双侧分位数为2.57,则的置信水平为99%的置信区间为
即[0.5228,0.7952]。
(ii)因为0.55在(i)中所得的置信区间内,因此在置信水平为99%的置信区间内不能拒绝的原假设;同理,1在(i)中所得的置信区间外,因此在置信水平为99%的置信区间内可以拒绝的原假设。
(iii)令
则
代入方程进行转换,对应替代后的方程可知,,因此
由于t值很小,故无法拒绝即的原假设。
6.在4.5节,我们使用了一个检验住房价格定价理性的例子。在那里,我们使用了price和assess的一个对数―对数模型[参见教材方程(4.47)]。这里,我们采用一个水平值―水平值的表述。
(i)在简单回归模型:
若和,则评价是理性的。所估计的方程是
首先,相对双侧备择假设,检验。然后,相对双侧备择假设,检验。你的结论是什么?
(ii)为了检验联合假设和,我们需要约束模型的SSR。这就要求在n=88的情况下计算
因为约束模型的残差刚好为。(由于两个参数在H0下都被设定,所以不需要约束模型的估计值。)这最终得到
对这个联合假设进行F检验。
(iii)现在检验模型中的假设,和。利用同样88个住房数据估计这个模型的R2是0.829。
(iv)如果price的方差随着assess,sqrft,lotsize或bdrms而变化,你对第(iii)部分的F检验有什么看法?
答:(i)自由度为88-2=86,在5%的显著性水平下,双侧检验的临界值是1.987。的t统计量为0.89,因此不能拒绝虚拟假设。的t统计量为,同样是统计不显著的,因此无法拒绝虚拟假设。
(ii)因为SSRr=209448.99,SSRur=165644.51,q=2,因此F统计量为:
查表可得,1%显著水平上,自由度分别为2和90的临界值为4.85,因此拒绝虚拟假设。
(iii)采用R2型的F统计量,无约束模型中的自由度为88-5=83。F统计量为:
在10%的显著性水平上,临界值为2.15,因此不能拒绝原假设。此时p值为0.23。
(iv)如果存在异方差性,则违背了MLR.5,在零假设条件下,F统计量服从F分布。因此,将F统计量与临界值相比较,或从F分布得到p值都是没有意义的。
7.在例4.7中,我们利用非工会制造企业的数据,估计了废品率与其他企业特征之间的关系。
我们现在来更深入地分析这个例子,并使用一个更大的企业样本。
(i)例4.7中待估计的总体模型可写成
利用1987年的43个观测,所估计的方程是
将这个方程与仅用样本中29个非工会企业估计出来的结果进行对比。
(ii)证明这个总体模型也可以写成
其中
[提示:。]解释假设。
(iii)当估计第(ii)部分的方程时,我们得到
控制了工人培训和销售—雇员比后,是否企业越大,其废弃率在统计上的显著性越大?
(iv)检验假设:sales/employ提高1%将伴随以废品率下降1%。
答:(i)hrsemp的系数从-0.029变为-0.042,绝对值明显增大,同时标准误仅从0.023变为0.019,变化不大。t统计量从-1.47下降到-2.21,在5%的显著性水平、自由度为40时,t统计量小于临界值-1.684,左侧检验下系数显著地小于零。
(ii)因为
所以在方程的右边减去再加上,可得:
(iii)企业越大,其废品率在统计上的显著性不一定越大。log(employ)系数的t值为0.2,非常小。因此控制了工人培训和销售-雇员比后,可以认为以雇员多少来度量的企业规模与废品率无关。
(iv)(ii)中的虚拟假设为:。t统计量为:
该t值非常小,无论是在单侧检验还是双侧检验时都无法拒绝虚拟假设。
8.在经典线性模型假定MLR.1到MLR.6下,考虑含有三个自变量的多元回归模型:
你想检验的原假设是。
(i)令和表示和的OLS估计量。用和的方差及其协方差求出
的标准误是什么?
(ii)写出检验的t统计量。
(iii)定义和,写出一个涉及,,和的回归方程,使你能直接得到及其标准误。
答:(i)
标准误为:
(ii)t统计量为:
(iii)
代入模型中可得:
此即为涉及,,和的回归方程,即为X1的系数,的标准误即为所需的标准误。
9.在第三章习题3中,我们估计了方程
其中的标准误是我们现在才同估计值一并给出的。
(i)相对于一个双侧备择假设,是educ还是age在5%的水平上是个别显著的?给出你的计算。
(ii)从方程中去掉educ和age,则给出
在5%的显著性水平上,educ和age在原方程中是联合显著的吗?说明你所给答案的理由。
(iii)在模型中包括educ和age,是否显著影响所估计的睡眠和工作之间的替换关系?
(iv)假设睡眠方程含有异方差性。这对第(i)和(ii)部分计算的检验意味着什么?
答:(i)自由度为:706-4=702;在双侧检验中,5%的显著性水平上,标准临界值为1.96,educ的t统计量为:
因此在5%的显著水平下无法拒绝原假设。同样,age的t统计量为1.52,小于临界值,因此在5%的显著性水平下同样是不显著的。
(ii)采用R2型的F统计量,F统计量为:
在5%的显著水平上,临界值为3,小于F统计量3.96,因此educ和age在原方程中是联合显著的。实际上,p值为0.019,因此变量在2%的显著性水平上联合显著。
(iii)不影响所估计的睡眠和工作之间的替换关系。因为变量是联合显著的,包含educ和age只使得totwrk的系数由-0.151变为-0.148。
(iv)t检验和F检验成立的假设之一是同方差性。如果方程存在异方差性,那么第(i)和(ii)部分的检验将不再有效。
10.回归分析还可以用来检验,市场是否在评价股票时有效地使用了市场信息。为简单起见,令return为持有一个企业的股票在从1990年末到1994年末的四年时间内得到的总回报。有效市场假设认为,这些回报不应该与1990年知道的信息存在系统相关性。如果在期初知道的企业特征有助于预测股票回报,那我们在选择股票时就能用到这个信息。对于1990年,令dkr表示企业的债务—资本比率,eps表示每股收益,netinc表示净收入,而salary则表示CEO的总报酬。
(i)使用RETURN.RAW中的数据,估计了如下方程:
检验这些解释变量在5%的显著性水平上是否联合显著。存在个别显著的解释变量吗?
(ii)现在使用netinc和salary的对数形式重新估计这个模型
第(i)部分的结论有没有什么变化?
(iii)在第(ii)部分中,我们为什么不用dks和eps的对数?
(iv)总的看来,股票回报可预测性的证据是强还是弱?
答:(i)已知n=142,k=4,因此F统计量为:
5%的显著性水平,分子自由度为4,分母自由度为137的临界值为2.45,大于F统计量,因此不能拒绝虚拟假设,即解释变量在5%的显著性水平上联合不显著。
变量dkr的t统计量最大,为1.6,小于临界值1.96,因此在5%的显著性水平下,不能拒绝,故不存在个别显著的解释变量。
(ii)F统计量为:
小于临界值,因此解释变量在5%的显著性水平上联合不显著。同样不存在在合理的显著性水平上显著的解释变量。
(iii)log不能定义dkr或eps为零的企业,因此采用log形式,将可能在回归中丢失部分企业的数据。
(iv)股票回报可预测性的证据是弱的。在5%的显著性水平上,没有t统计量是显著的,同时F统计量也是不显著的。报酬的变异中,只有3.3%的部分能被解释变量解释。
11.使用CEOSAL2.RAW中的数据得出下表:
变量mktval为企业的市场价值,profmarg为利润占销售额的百分比,ceoten为其就任当前公司CEO的年数,而comten则是其在这个公司任职的总年数。
(i)评论profmarg对CEO薪水的影响。
(ii)市场价值是否具有显著影响?试解释你的结论。
(iii)解释ceoten和comten的系数。这些变量是统计显著的吗?
(iv)你如何解释在其他条件不变的情况下,你在这个公司任职时间越长,你的薪水则越低?
答:(i)据表中(2)、(3)可知,profmarg的系数为负,t统计量为-1。因此在企业的市场价值和销量固定的情况下,边际利润对CEO的薪水无影响。
(ii)据表中(3)可知,在控制了影响薪水的大多数因素时,log(mktval)的t统计量为2.05,在双侧检验中在5%的显著性水平上是统计显著的,所以市场价值具有显著影响。
(iii)&(iv)这些变量在低显著性水平上是个别显著的。因为
其他变量固定的情况下,就任公司CEO的年份增加一年,薪水增长1.71%。在公司任职(非CEO)增加一年,薪水减少0.92%。第二个结论反映了“明星”效应:企业从公司外部聘用CEO都倾向于一小群被高度评价的候选人,因此这些人的工资被哄抬起来,而非CEO职员的聘用不大可能像CEO一样。
二、计算机练习
C1.如下模型可用来研究竞选支出如何影响选举结果:
其中,voteA表示候选人A得到的选票百分数,expendA和expendB分别表示候选人A和B的竞选支出,而prtystrA则是对A所在党派实力的一种度量(A所在党派在最近一次总统选举中获得的选票百分比)。
(i)如何解释?
(ii)用参数表述如下原假设:A的竞选支出提高1%被B的竞选支出提高1%所抵消。
(iii)利用VOTE1.RAW中的数据来估计上述模型,并以通常的方式报告结论。A的竞选支出会影响结果吗?B的支出呢?你能用这些结论来检验第(ii)部分中的假设吗?
(iv)估计一个模型,使之能直接给出检验第(ii)部分中假设所需用的t统计量。你有什么结论?(使用双侧备择假设。)
答:(i)保持其他因素固定不变,则有
因此当expendA增加1%,voteA变动个百分点。
(ii)原假设为:,这意味着A的竞选支出提高z%,同时B的竞选支出提高z%,从而voteA不变。因此原假设可写为:。
(iii)估计方程为:
log(expendA)的系数是非常显著的,因为其t统计量为15.92,log(expendB)的系数也是显著的(t统计量的值为-17.45)。估计方程表明在其他条件不变的情况下,候选人A支出增加10%,候选人A得到的选票百分数将增加0.61%。在其他条件不变的情况下,候选人B支出增加10%,候选人A得到的选票百分数将减少0.66%。这些效应是不能被忽略的。
假设log(expendA)的系数与log(expendB)的系数大小相等,符号相反,那么将不存在,但在假设检验中,需要该标准误。因此不能用这些结论来检验第(ii)部分中的假设。
(iv)令,代入原方程可得:
估计该方程可得:和。第(ii)部分的t统计量为:
因此不能拒绝原假设。
C2.本题要利用LAWSCH85.RAW中的数据。
(i)使用与第3章习题4一样的模型,表述并检验原假设:在其他条件不变的情况下,法学院排名对起薪中位数没有影响。
(ii)新生年级的学生特征(即LSAT和GPA)对解释salary而言是个别或联合显著的吗?
(iii)检验是否要在方程中引入入学年级的规模(clsize)和教职工的规模(faculty);只进行一个检验。(注意解释clsize和faculty的缺失数据。)
(iv)还有哪些因素可能影响到法学院排名,但又没有包括在薪水回归中?
答:(i)模型为:
原假设为:。估计方程为:
rank的t统计值为-11,非常显著。如果rank减少10,起薪中位数预期增加3.3%。
(ii)LSAT是统计不显著的,因为t≈1.18,但是GPA是统计显著的,t≈2.76。给定GPA高度显著的情况下,F统计量等于9.95,p值约为0.0001,因此联合显著性的检验是无实际意义的。
(iii)在模型中引入入学年级的规模和教职工的规模时,将会丢失5个观测值。联合显著性检验的F统计量为0.95,p值为0.39(自由度为2和123)。除非使用较大的显著性水平,否则两个变量之间不是联合显著的。
(iv)如果想去确定排名名次影响法律院校学生的起薪,就应该控制控制影响排名和薪水的其他因素。排名本身带有一定程度的不可测性,而且排名可能部分依赖于一些不影响学生质量的琐碎因素。LSAT和GPA是控制学生质量好的因素。性别和种族的差异也是影响薪水的因素。然而,并不确定这些因素与排名相关的原因。由出版物的发行记录来衡量的教职工的质量应该被囊括在内。
C3.参考第3章的计算机练习C2。现在,我们使用住房价格的对数作为因变量:
(i)你想在住房增加一个150平方英尺的卧室的情况下,估计并得到price变化百分比的一个置信区间。以小数形式表示就是
使用HPRICE1.RAW中的数据去估计。
(ii)用和表达,并代入log(price)的方程。
(iii)利用第(ii)部分中的结果得到的标准误,并使用这个标准误构造一个95%的置信区间。
答:(i)估计模型为:
因此
表明在住房增加一个150平方英尺的卧室的情况下,预期价格将上涨8.6%。
(ii)因为
则有
(iii)对(ii)中的模型进行回归,可得,且已知,则95%的置信区间为(0.0326,0.1390)。
C4.在例4.9中,可以使用样本中所有1388个观测数据去估计约束模型。使用所有观测值计算bwght对cigs,parity和faminc回归的R2,并与例4.9中约束模型所报告的R2相比较。
答:使用样本中所有1388个观测数据,可得R2=0.0348。当错误的使用了从全部观测数据进行受约束回归得出的R2=0.0348时,分子的df为2,分母的df为1382,可以得到F统计量:
p值为0.068,在10%的显著性水平上显著且接近在5%显著性水平上显著,即拒绝原假设。但这不是正确的结果,正确的F值是使用无约束回归中1191个观测值进行受约束回归得出的R2=0.0364,此时分子的df为2,分母的df为1185,计算得到正确的F统计量为:
p值为0.242,在10%的显著性水平上,不能拒绝原假设。
C5.本题要用到MLB1.RAW中的数据。
(i)从以下模型中去掉变量rbisyr。hrunsyr的统计显著性会如何变化?hrunsyr的系数大小又会如何变化?
(ii)在第(i)部分的模型中增加变量runsyr(每年垒得分),fldperc(防备率)和sbasesyr(每年盗垒数)。这些因素中,哪一个是个别显著的?
(iii)在第(ii)部分的模型中,检验bavg,fldperc和sbasesyr的联合显著性。
答:(i)如果去掉变量rbisyr,则估计模型变为:
此时hrunsyr是统计显著的,因为t≈4.99,它的系数也增加了2.5倍。
(ii)增加变量runsyr(每年垒得分),fldperc(防备率)和sbasesyr(每年盗垒数)后的模型为:
在三个条件独立的变量中,只有runsyr是统计显著的,t=0.0174/0.0051≈3.41,表明在其他因素固定的情况下,每年垒得分增加1,预期薪水将大幅度增长1.74%,这是一个实质性的增长。每年盗垒数的t值是负的,而防备率的t值仅为0.5。职业棒球大联盟的成员们大多数是优秀的守场员,实际上,最小的每年防备率是800。防备率相对较小的变异,使得它的影响难以估计。
(iii)根据t统计量,bavg,fldperc和sbasesyr分别是不显著的。它们的联合显著性检验的F统计量为0.69,p值为0.56,因此,变量是联合不显著的。
C6.本题要用到HTV.RAW中的数据。
(i)考虑一个加入了父母受教育程度变量的工资方程
表述原假设:父亲与母亲的受教育程度对log(wage)具有相同影响。
(ii)估计第(i)部分中的模型,同时谈谈你对和大小的看法。
(iii)在5%的显著性水平上,相对于双侧备择假设,通过构造一个95%的置信区间来检验第(i)部分中的原假设。你得到的结论是什么?
答:(i)原假设为:。
(ii)估计的方程为:
自由度为1230-5=1225,的t值为0.96,统计上不显著;的t值为3.47,在1%的显著性水平上显著,的值表明控制其他变量的情况下,父亲的教育年限每增加一年,工资将增长2.09%。
(iii)令则,将代入方程得:
定义即父母的教育总年限,估计方程得:
因为。
自由度为1230-5=1225的t分布的95%双侧分位数为1.96,故的置信水平为95%置信区间为[-0.0126-1.96×0.0128,-0.0126+1.96×0.0128],即[-0.03769,0.01249]。由于0包含在置信区间中,故在95%的置信水平上不能拒绝即的原假设。
C7.参考4.4节中所用的例子。你将使用数据集TWOYEAR.RAW。
(i)变量phsrank表示一个人的高中百分位等级。(数字越大越好。比如90意味着,你的排名比所在班级中90%的同学更高。)求出样本中phsrank的最小、最大和平均值。
(ii)在方程(4.26)中增加变量phsrank,并照常报告OLS估计值。phsrank在统计上显著吗?高中排名提高10个百分位点,能导致工资增加多少?
(iii)在方程(4.26)中增加变量phsrank显著改变了2年制和4年制大学教育回报的结论了吗?请解释。
(iv)数据集包含了一个被称为id的变量。你若在方程(4.17)或(4.26)中增加id,预计它在统计上不会显著,解释为什么?双侧检验的p值是多少?
答:(i)phsrank的最小值为0,最大值为99,平均值为56.16。
(ii)在方程中增加变量phsrank可得:
phsrank的t统计量为1.27,小于临界值,是统计不显著的。如果排名提高10个百分位点,log(wage)预期将增加0.003,这意味着薪水将会增长0.3%。
(iii)在方程中增加变量phsrank之后,使得jc的t统计量的绝对值变得更小了,为1.33,但是其系数等于方程4.26中的系数。因此增加变量phsrank没有显著改变2年制和4年制大学教育回报的结论。大专学校的回报被估计得更少了,但该差异在标准显著水平下并不是统计显著的。
(iv)变量id只是工人的身份证号码,是被随机排列的。因此,在回归方程中,id与任何其他变量都是不相关的。因此若在方程中增加id,它在统计上是不显著。实际上,其p值约等于0.54。
C8.数据集401KSUBS.RAW包含了净金融财富(nettfa)、被调查者年龄(age)、家庭年收入(inc)、家庭规模(fsize)方面的信息,以及参与美国个人的特定养老金计划方面的信息。财富和收入变量都以千美元为单位记录。对于这里的问题,只使用无子女已婚者数据(marr=1,fsize=2)。
(i)数据集中有多少无子女已婚夫妇?
(ii)利用OLS估计模型
并以常用格式报告结果。解释斜率系数。斜率估计值有何惊人之处吗?
(iii)第(ii)部分的回归截距有重要意义吗?请解释。
(iv)在1%的显著性水平上,针对检验,求出p值。你能拒绝H0吗?
(v)如果你做一个nettfa对inc的简单回归,inc的斜率估计值与第(ii)部分的估计值有很大不同吗?为什么?
答:(i)数据集中共有1494对无子女已婚夫妇。
(ii)回归模型为:
inc的系数表明收入每增加1000美元(age保持固定),净金融财富预计将增加1308美元。但是通常情况下,净金融财富的增量只是收入增量的一部分,因此一般有,所以inc的斜率估计值很可能错误。age的系数表明,其他要素不变的情况下,年龄增长一岁,则净金融财富增加1665美元。斜率估计值符合常理。
(iii)回归截距项表明当收入和年龄均为零时,净金融财富值预计为-104.40。然而令收入与年龄为零没有实际意义,因此截距项的值也没有实际意义。
(iv)t统计量为
保留三位小数下p值约等于0,因此可以拒绝。即认为。
(v)简单回归中inc的斜率估计值是1.291,与(ii)部分的1.308没有很大不同。对样本数据的观察表明inc和age之间的相关系数仅为0.106,将age对inc进行简单回归的系数值只有0.247,这解释了简单回归和多重回归结果没有很大不同的原因。
C9.利用DISCRIM.RAW中的数据回答本题。(也可参见第3章计算机练习C8。)
(i)利用OLS估计模型
以常用形式报告结果。在5%的显著性水平上,相对一个双侧备择假设,统计显著异于零吗?在1%的显著性水平上呢?
(ii)log(income)和prppov的相关系数是多少?每个变量都是统计显著的吗?报告双侧P值。
(iii)在第(i)部分的回归中增加变量log(hseval)。解释其系数并报告的双侧p值。
(iv)在第(iii)部分的回归中,log(income)和prppov的个别统计显著性有何变化?这些变量联合显著吗?(计算一个p值。)你如何解释你的答案?
(v)给定前面的回归结果,在确定一个地区的种族构成是否影响当地快餐价格时,你会报告哪一个结果才最为可靠?
答:(i)OLS估计模型为:
双侧检验的p值为0.018,在5%的置信水平上拒绝原假设,但在1%的水平上无法拒绝原假设。
(ii)log(income)和prppov的相关系数为-0.84,表明可能存在相当高程度的多重共线性。每一个系数都是统计显著的,的t统计量为5.1,p值近似为0,而的t统计量为2.86,双侧检验的p值为0.004。
(iii)增加变量log(hseval)后,OLS回归结果为:
log(hseval)的系数表示弹性,意味着房屋价值每增加1%,在其他变量不变的情况下,预计价格增长0.12%。双侧检验的p值近似为0。
(iv)增加变量log(hseval)后使得log(income)和prppov的个别统计不显著,即使在置信水平为15%时,双侧检验的log(income)的t统计量都小于临界值。
然而,在联合显著检验中,在5%的置信水平下,分子自由度为2,分母自由度为396,F统计量为3.52,p值等于0.030,表明所有的控制变量存在高度相关,因此部分变量个体上统计不显著就是符合常理的。
(v)因为(iii)中的回归包含的最多的控制变量,log(hseval)个体上是统计显著的,log(income)和prppov是联合显著的。(iii)看起来是最可靠的。因此,一个合理的估计是:在其他因素固定的情况下,黑人的比例增加0.1,psoda估计增加1%。
C10.利用ELEM94_95.RAW中的数据回答本题。所得到的结论可以与教材表4-1中的结论进行对比。因变量lavgsal表示教师平均薪水的对数,bs表示平均福利与平均薪水的比率(以学校为单位)。
(i)将lavgsal对bs进行简单回归。斜率估计值在统计上显著异于0吗?它在统计上显著地异于-1吗?
(ii)在第(i)部分的回归中增加变量lenrol和lstaff。bs的系数有何变化?这种情形与教材表4-1中的情形相比如何?
(iii)第(ii)部分中bs系数的标准误为何比第(i)部分中的标准误更小?(提示:当增加变量lenrol和lstaff后,对误差方差和多重共线性会造成什么样的影响?)
(iv)lstaff的系数为何为负?它的绝对值算大吗?
(v)在回归中再添加变量lunch。保持其他条件不变,教师会因教育那些家庭条件不好的学生而得到补偿吗?请解释你的结论。
(vi)总之,你利用ELEM94_95.RAW得到的结论,与教材4-1在形式上一致吗?
答:(i)使用1848个观测值,的样本回归估计值为-0.795。95%的置信区间为-1.088到-0.502,这包括了-1而不包括0。因此在5%的置信水平上,可以拒绝虚拟假设但不能拒绝虚拟假设。即斜率估计值在统计上显著地异于0,不显著异于-1。
(ii)在模型中增加变量lenrol和lstaff,bs的系数变为-0.605,统计显著地异于1,95%的置信区间为[-0.818,-0.392]。这种情形与表4-1中的情形很相似,简单回归估计的系数为-0.825,多重回归的系数为-0.605。
(iii)简单回归bs系数估计的标准误为0.150,多重回归估计的标准误为0.109。增加的其他解释变量对标准误的作用方向是相反的。在本题中,bs和两个增加的变量lenrol和lstaff由于多重共线性的原因而增加标准误。而同时,lenrol和lstaff包含在回归方程中减小了系数的误差方差从而减小了标准误。事实上,它们属于简单回归的误差项的组成部分。在这个案例中,多重共线性相对于误差方差的减少是温和的,因此标准误从简单回归中的0.150下降到多重回归中的0.109,或者也可以从判定系数的角度去观察误差方差的变动。事先无法比较两种效应中哪种效应起主导作用,但是可以在进行两种回归后对误差方差进行比较。
(iv)lstaff变量表示平均每千名学生的教工数的对数。当教工数增加,平均每名学生拥有的教工数将会增加,并导致更小的班级规模。对教师而言这是令人满意的情形,因为其他条件不变的情况下,教师愿意少支取工资,从而减小班级的规模。弹性为-0.714,表示教工规模增加10%,则工资减少-7.14%。
(v)在回归中再添加变量lunch,其系数为-0.00076,t值为-4.69,在其他条件不变的情况下,贫困率与低的教师工资是相关的。在这个数据集中,lunch的平均值为36.3,标准误差为25.4。因此,lunch的标准误差增加与工资变动是相关的,即导致工资减少
约2%。本题没有足够的证据说明教师会因教育那些家庭条件不好的学生而得到补偿。
(vi)与表4-1在形式上一致。其数值大小也是合理地接近的。从绝对值角度而言,简单回归估计是最大的,当其他解释变量加入模型中后,回归结果将会变小。最终两个回归不是相同的,因为在表4-1中不能控制lunch,而毕业率与辍学率与小学学生无关。