第四节 参数估计
参数主要是指:
(1)分布中的未知参数。如正态分布N(μ,σ2)中的μ,σ2或σ;
(2)分布的均值E(X)、方差Var(X)等未知特征数;
(3)其他未知参数,如某事件的概率P(A)等。
一、点估计
1.点估计的概念
设θ是总体的一个未知参数,记与总体对应的随机变量为X,从中抽取样本量为n的一个样本X1,X2,…,Xn。根据这个样本,构造一个统计量,用来对θ进行估计,称为θ的点估计量。
2.点估计优良性标准
(1)无偏性
均方误差:
称为偏倚,当时,称估计量是无偏的,否则称为有偏的。只要有可能,应该尽可能选用无偏估计量,或近似无偏估计量。
(2)有效性
均方误差公式中表示的是对其均值差的平方的均值,它是估计量的方差。对于无偏估计量,当然方差愈小愈好。方差愈小,称估计量更有效。有效性是判定估计量优良性的另一个标准。
3.求点估计的方法——矩法估计
均值与方差在统计学中统称为矩,总体均值与总体方差属于总体矩,样本均值与样本方差属于样本矩。
矩法估计的做法:
(1)用样本矩去估计相应的总体矩。
(2)用样本矩的函数去估计相应总体矩的函数。
注意:矩法估计不一定总是最有效的,而且有时估计也不惟一。
4.对几种分布参数矩法估计的例子
(1)指数分布中,E(X)=1/λ,所以λ=1/E(X),用样本均值代替E(X),则得λ的矩法估计为。
(2)两点分布b(1,p)的总体均值E(X)=p,按矩法估计的思想,可得p的矩法估计:,即用频率去估计概率。
(3)设样本x1,x2,…,xn来自参数为λ的泊松分布,由于E(X)=λ,Var(X)=λ,因此都可以作为λ的矩法估计,因此λ的估计不惟一。此时,常选用低阶矩作为参数的矩法估计。均值是一阶矩,方差是二阶矩,故在泊松分布场合,选用样本均值作为λ的估计。
(4)设样本x1,x2,…,xn来自均匀分布U(a,b)。其均值为(a+b)/2,方差为(b-a)2/12,由矩法估计的思想可列出如下两个方程:
解之可得a与b的矩法估计:
5.正态总体参数的估计
设x1,x2,…,xn是来自正态总体N(μ,σ2)的一个样本,参数μ、σ2和σ的常用的无偏估计如下。
(1)正态均值μ的无偏估计有两个,一个是样本均值,另一个是样本中位数,即:
对于正态总体来说,样本均值总比样本中位数更有效。
(2)正态方差σ2的无偏估计常用样本方差s2,即:
(3)正态标准差σ的无偏估计有两个,一个是对样本极差R=x(n)-x(1)进行修偏而得,另一个是对样本标准差s进行修偏而得,具体如下:
其中d2与c4是只与样本量n有关的常数,其值可从修偏系数d2和c4的数值表中查得。
对正态标准差σ来说,总比更有效。
【例题1.4.1】设X1,X2,…,Xn是来自正态总体N(μ,σ2)的一个样本,则有( )。[2006年真题]
【答案】AC
【解析】正态均值μ的无偏估计有两个,一个是样本均值,另一个是样本中位数
;正态方差σ2的无偏估计常用的只有一个,就是样本方差s2,即:。
二、区间估计
1.区间估计的概念
(1)设θ是总体的一个待估参数,其一切可能取值组成的参数空间为Θ,记从总体中获得样本量为n的样本为x1,x2,…,xn,对给定的α(0<α<1),确定两个统计量:
θL=θL(x1,x2,…,xn)与θU=θU(x1,x2,…,xn)
若对任意θ∈Θ有P(θL≤θ≤θU)≥1-α,则称随机区间[θL,θU]是θ的置信水平为1-α的置信区间,简称[θL,θU]是θ的1-α置信区间,θL与θU分别称为θ的1-α的置信下限与置信上限。
(2)1-α置信区间的含义
所构造的随机区间[θL,θU]覆盖(盖住)未知参数θ的概率为1-α。由于这个随机区间随样本观测值的不同而不同,它有时覆盖了参数θ,有时没有覆盖θ,但是用这种方法做区间估计时,100次中大约有100(1-α)个区间能覆盖未知参数θ。
如果P(θ<θL)=P(θ>θU)=α/2,则称这种置信区间为等尾置信区间。
【例题1.4.2】设[θL,θU]是θ的置信水平为1-α的置信区间,则有( )。[2006年真题]
A.α愈大,置信区间长度愈短
B.α愈大,置信区间长度愈长
C.α愈小,置信区间包含θ的概率愈大
D.α愈小,置信区间包含θ的概率愈小
E.置信区间长度与α大小无关
【答案】AC
【解析】1-α置信区间的含义是:所构造的随机区间[θL,θU]覆盖(盖住)未知参数θ的概率为1-α。α愈大,区间[θL,θU]盖住未知参数θ的概率越小,区间的长度越短;α愈小,区间[θL,θU]盖住未知参数θ的概率越大,置信区间的长度越长。
2.正态总体参数的置信区间
设总体分布为N(μ,σ2),从中抽取的样本记为x1,x2,…,xn,样本均值为,样本方差为s2,样本标准差为s。
(1)总体均值μ的置信区间的求法
①当总体标准差σ已知时,利用正态分布可得μ的1-α置信区间为:
其中u1-α/2是标准正态分布的1-α/2分位数。
【例题1.4.3】设x1,…x9是从正态总体N(μ,0.62)中随机抽取的样本,样本均值为,μα是标准正态分布的α分位数,则均值μ的0.90置信区间为( )。[2010年真题]
A.±0.2μ0.95
B.±0.2μ0.90
C.±0.6μ0.90
D.±0.6μ0.95
【答案】A
【解析】当总体标准差σ已知时,利用正态分布可得μ的1-α置信区间为:
则正态分布N(μ,0.62)均值μ的0.90置信区间为:±0.6/·μ0.95,即:±0.2μ0.95。
②当总体标准差σ未知时,σ用其估计s代替,利用t分布可以得到μ的1-α置信区间为
表示自由度是n-1的t分布的1-α/2分位数。
【例题1.4.4】在方差未知时,正态均值μ的1-α置信区间长度与( )。[2007年真题]
A.样本均值成正比
B.样本量n的平方根成反比
C.总体标准差成正比
D.样本标准差成正比
E.α成正比
【答案】BD
【解析】当总体方差未知时,利用t分布可以得到μ的1-α置信区间为
,所以区间长度与样本量n的平方根成反比,与样本标准差成正比。
(2)总体方差σ2与标准差σ的置信区间的求法
利用分布可以得到σ2的1-α置信区间为:
其中分别是分布的α/2分位数与1-α/2分位数。
将上式两边开平方,可得σ的1-α置信区间为:
总结:
表1-5 正态总体均值、方差、标准差的1-α置信区间
【例题1.4.5】采用包装机包装食盐,要求500g装一袋,已知标准差σ=3g,要使食盐每包平均重量的95%置信区间长度不超过2g,样本量n至少为( )。已知u0.975=1.96,u0.95=1.64。[2012年真题]
A.10
B.24
C.35
D.70
【答案】C
【解析】在σ已知时,μ的95%的置信区间为:其中u1-α/2=u0.975=1.96。置信区间的长度是:为使它不超过2,可解不等式2×1.96×得n≥34.5744。即样本量n至少为35。
3.比例p的置信区间(大样本情况)
设总体X~b(1,p),样本为x1,x2,…,xn,样本之和为k,样本均值为这便是p的点估计,在样本量n较大时,由于的近似分布为N(p,(1-p)/n),因此p的1-α置信区间为:
其中u1-α/2是标准正态分布的1-α/2分位数。