第二章 常用统计技术
第一节 方差分析
一、几个概念
1.因子
将在试验中会改变状态的因素称为因子,常用大写字母A、B、C等表示。
2.因子的水平
因子所处的状态称为因子的水平,用因子的字母加下标表示,如因子A的水平用A1、A2、…等表示。
3.方差分析
如果一个试验中所考察的因子只有一个,那么这是单因子试验问题。一般对数据做以下一些假定:
假定因子A有r个水平,在每个水平下指标的全体都构成一个总体,因此共有r个总体。假定第i个总体服从均值为μi,方差为σ2的正态分布,从该总体获得一个样本量为m的样本为yi1,yi2…,yim,其观测值便是观测到的数据,i=1,2,…,r,最后假定各样本是相互独立的。
数据分析主要是要检验如下假设:
H0:μ1=μ2=…=μr H1:μ1,μ2,…,μr不全相等
检验这一对假设的统计技术便是方差分析。
当H0不真时,表示不同水平下指标的均值有显著差异,此时称因子A是显著的;否则称因子A不显著,如图2-1所示。
图2-1 两种说法的示意图
方差分析是在相同方差假定下检验多个正态均值是否相等的一种统计分析方法。具体地说,该问题的基本假定是:
(1)在水平Ai下,指标服从正态分布;
(2)在不同水平下,方差σ2相等;
(3)数据yij相互独立。
方差分析就是在这些基本假定下对假设(H0对H1)进行检验的一种统计方法。
【例题2.1.1】方差分析是检验多个正态均值是否相等的一种统计分析方法,其基本假定包括( )。[2007年真题]
A.在水平Ai下,指标服从正态分布
B.在不同水平下,方差σ2不相等
C.在不同水平下,方差σ2相等
D.数据yij相互不独立
E.数据yij相互独立
【答案】ACE
【解析】方差分析的基本假定包括:①在水平Ai下,指标服从正态分布;②在不同水平下,方差σ2相等;③数据yij相互独立。
二、单因子方差分析
1.平方和
设在一个试验中只考察一个因子A,它有r个水平,在每一水平下进行m次重复试验,其结果用yi1,yi2…,yim表示,i=1,2,…,r。常常把全部数据列成如表2-1的形式。
表2-1 单因子试验数据表
其中yij表示因子A第i个水平下的第j次重复试验结果,分别表示第i水平下的数据和与数据均值。此时共有n=r·m个数据,这n个数据不全相同。若用表示n个数据的总平均,那么这n个数据的差异可以用总离差平方和ST表示:
(1)引起数据差异的原因
①由于因子A的水平不同,当假设H0不真时,各个水平下指标的均值不同,这必然会使试验结果不同,可以用组间平方和表示,又称因子平方和:
②由于存在随机误差,即使在同一水平下获得的数据间也有差异,这是除了因子A的水平外的其他所有原因引起的,将它们归结为随机误差,可以用组内平方和表示,又称误差平方和:
可以证明有
ST=SA+Se
2.自由度
ST、SA、Se的自由度分别用fT、fA、fe表示,它们也有分解式:
fT=fA+fe
其中:
fT=n-1=rm-1,fA=r-1,fe=fT-fA=r(m-1)
【例题2.1.2】在单因子试验中因子A有4个水平,在水平A1下重复试验8次,在水平A2下重复试验6次,在水平A3与A4下各重复试验7次,则误差平方和的自由度等于( )。[2010年真题]
A.28
B.26
C.24
D.22
【答案】C
【解析】ST、SA、SE的自由度分别用fT、fA、fe表示,其有分解式:fT=fA+fe。其中,fT=n-1=8+6+7×2-1=27,fA=4-1=3,fe=fT-fA=27-3=24。
3.均方与F比
因子或误差平方和与相应的自由度之比,也即按自由度平均的平方和称为均方,并分别记为:
MSA=SA/fA,MSe=Se/fe
当MSA与MSe相差不大时,认为因子A不显著;而当MSA相对于MSe大得多时,认为A是显著的。这一比较可以用两者的比表示,称为F比,记为:
F=MSA/MSe
当F>F1-α(fA,fe)时认为因子A在显著性水平α上是显著的,其中F1-α(fA,fe)是自由度为fA,fe的F分布的1-α分位数。
总结:
求F比值的过程往往列成一张方差分析表,如表2-2所示。
表2-2 单因子方差分析表
各(离差)平方和的计算公式:
其中是第i个水平数据的和,表示所有n=rm个数据的总和。
【例题2.1.3】在单因子方差分析中,因子A有4个水平,各水平下试验次数分别为8,6,7,9,则误差平方和的自由度fe=( )。[2008年真题]
A.26
B.28
C.24
D.27
【答案】A
【解析】已知,则n=30,fT=30-1=29,fA=r-1=4-1=3,
fe=fT-fA=29-3=26。
【例题2.1.4】在单因子方差分析中,因子A有3个水平,每个水平下各做4次试验,现已算得总平方和ST=69,因子A的平方和SA=42,则检验因子A是否显著的统计量F的值为( )。[2008年真题]
A.1.56
B.14
C.3
D.7
【答案】D
【解析】根据题意知,r=3,m=4,Se=ST-SA=69-42=27,所以fA=r-1=2,fe=r(m-1)=3×(4-1)=9,则MSA=SA/fA=42/2=21,MSe=Se/fe=27/9=3,则检验因子A是否显著的统计量F的值为:F=MSA/MSe=21/3=7。
【例题2.1.5】在单因子方差分析中可获得的结论有( )。[2008年真题]
A.因子A各水平下的均值是否有显著差异
B.因子A各水平下的方差是否有显著差异
C.误差方差的估计量=MSA
D.误差方差的估计量=MSe
E.因子A各水平下的指标是否服从正态分布
【答案】AD
【例题2.1.6】在单因子方差分析中,因子A有2个水平,每个水平下各重复试验3次,具体数据为:水平A1:9,7,8;水平A2:3,1,2,有关平方和或均方的正确计算结果有( )。[2008年真题]
A.因子A的平方和SA=54
B.因子A的均方MSA=27
C.误差平方和Se=4
D.误差的均方MSe=2
E.总平方和Sr=54
【答案】AC
【解析】因子A在A1与A2水平下数据的均值分别为:与,数据的总平均值为
因此误差平方和为:因子A的平方和为:;误差的均方MSe=又因为,
,所以误差均方为:,因子A的均方为:。
【例题2.1.7】在单因子方差分析中,因子A有3个水平,每个水平下各重复5次试验,现已求得每个水平下试验结果的和为7.5,10.5,6.0,则( )。[2007年真题]
A.因子A的平方和为1.26
B.因子A的平方和为2.10
C.因子A的自由度为4
D.因子A的自由度为2
E.因子A的均方为0.315
【答案】BD
【解析】根据题意,因子水平数r=3,试验重复次数m=5,试验总次数n=15,所以因子A的自由度fA=r-1=3-1=2;因为每个水平下试验结果的和为7.5,10.5,6.0,所以试验结果的总和T=7.5+10.5+6.0=24,则根据因子A的离差离差平方和计算公式可得因子A的平方和为
,因子A的均方为MSA=SA/fA=2.10/2=1.05。
【例题2.1.8】在单因子方差分析中,因子A有4个水平,各水平下的重复试验数分别为8,5,7,6。根据试验结果已算得因子A的平方和SA=167.53,误差平方和Se=337.17。由此可算得统计量F的值为( )。[2006年真题]
A.2.73
B.5.23
C.3.64
D.6.30
【答案】C
【解析】根据题意,因子水平数r=4,试验共有n=8+5+7+6=26个数据,所以总离差平方和ST的自由度fT=n-1=26-1=25,因子A的平方和SA的自由度为fA=r-1=3,误差平方和的自由度fe=fT-fA=25-3=22,所以MSA=SA/fA=167.5/3≈55.83,MSe=Se/fe=337.17/22≈15.33,所以F=MSA/MSe=55.83/15.33≈3.64。
4.方差分析的步骤
(1)计算因子A的每一水平下数据的和T1,T2,…,Tr及总和T;
(2)计算各类数据的平方和∑y2ij,∑T2i,T2;
(3)依次计算ST,SA,Se;
(4)计算各均方及F比值并列出方差分析表;
(5)对于给定的显著性水平α,将求得的F分布表中的F1-α(fA,fe)比较,当F>F1-α(fA,fe)时认为因子A是显著的,否则认为因子A是不显著的。
三、重复数不等的情况
若在每一水平下重复试验次数不同,假定在Ai水平下进行了mi次试验,那么方差分析仍可进行。只是在计算中有两个主要改动:
一是此时n=∑mi;二是SA的计算公式改为:。