郝大海《社会调查研究方法》(第2版)笔记和课后习题详解
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第二章 抽样设计

2.1 复习笔记

抽样设计包括以下几点内容:第一,定义总体和编制抽样框,即给目标总体下一个操作化定义。第二,根据不同的目标总体,选择合适的抽样方法。第三,对总体的变异性作出估计,即估计抽样误差。第四,确定样本所含个体数目,即样本规模的大小。

一、抽样概述

1抽样的概念

抽样是指根据某种既定规则从一个总体中选取一组元素的过程,由此产生的元素集合称为样本。即每一个具体的研究对象被称为元素,全体研究对象被称为总体,样本则代表一部分研究对象。

(1)抽样的必要性

在社会调查中,经费是一项硬约束,多增加一个调查对象,就意味着多花一份钱。因此,如果总体太大,限于资源,无法逐一对每个总体元素进行调查。

即使有充足的调查经费,当总体太大时,也很难找到足够多训练有素的研究人员完成调查。

(2)抽样方法的分类

非概率抽样

即依据研究者的主观意愿、判断或是否方便等因素来选取对象。

在非概率抽样中,研究者无法知道抽出的样本是否具有代表性,因为,非概率抽样的代表性只有将抽出的少数对象的情况与总体的情况比较后才能得知,但总体的情况又是不知道的。因此,非概率抽样无法估算出抽样误差。

概率抽样

即按照随机原则来选取对象,完全不带研究者的主观因素。

概率抽样能够比较精确地估算出抽样误差。在概率抽样中,研究者根据抽样误差,便能够判断出样本的代表性,进而根据被抽出的少数对象的情况,对全体对象的情况进行推论。

(3)应用概率抽样方法时的注意事项

要注意被抽出的少数对象与全体对象是不同的,因此,无论怎样精致的抽样设计,抽样误差都是无法避免的,抽样得到的少数对象的情况很可能并不一定完全符合全体对象的情况。即根据抽样结果来推断全体对象的情况,可能是对的也可能出错。问题是推论中的对或错的可能性是多少。如果出错的机会很小,便可以接受推论;否则,就无法接受推论。

在有些情况下,可能无法使用概率抽样方法。

2非概率抽样

(1)非概率抽样的含义

非概率抽样,即放弃随机原则,依据研究者的主观意愿、判断或是否方便等因素来抽取样本。非概率抽样的成本比较低,操作也比较方便,但无法预先估计抽样误差,因此,很难对总体情况做出可靠的推断。

(2)几种常见的非概率抽样方法

方便抽样

方便抽样即偶遇抽样,是指研究者使用对自己最为便利的方法来选取样本。这种方法很容易产生系统误差,样本代表性很差,因此,在使用时要特别小心,总体的情况越复杂,方便抽样的效果就越差。

配额抽样

a.配额抽样首先要根据某些参数值,确定不同总体类别中的样本配额比例,然后按比例在各类别中进行方便抽样。

b.配额抽样的逻辑是通过样本配额,使样本结构尽可能与总体结构保持一致,对总体进行“克隆”。配额矩阵所依据的总体参数值越多,样本元素的分类也越细,样本与总体的结构也越接近。但随着参数值的增加,配额矩阵的分布会越来越复杂,抽取到符合条件的对象也就越来越困难。

c.配额抽样中经常采用的参数值包括性别、年龄、教育程度、婚姻状况、收入和职业类别等。

d.配额抽样的不足

第一,为了不偏离总体,配额矩阵中的数字必须十分准确,要做到这一点,就必须掌握总体的最新资料,但这并不容易做到。

第二,尽管配额方法是一种改进,但最后抽样仍由访问员根据方便原则执行,他们从某些特定的矩阵格子中选择样本时,有很大的随意性。

判断抽样

判断抽样即立意抽样,是指研究者根据研究目的或专家判断来选取样本。在这种抽样中,样本是否能满足研究目的的要求,是否能正确反映总体情况,很大程度上依赖于研究者的主观判断,因此,对研究者个人的研究素质有较高的要求。判断抽样经常被用于以下三种研究场景:

a.研究者用判断抽样来选择特别能提供信息的独特个案;

b.研究者用判断抽样来选取难以接近的特殊人群;

c.研究者用判断抽样来选取某种特殊个案类型,以便进行深入探究。这种研究是希望获得对这种类型的深入了解,它的作用在于发现问题,提出假设,而不在于对总体做出概括,因此,无需根据样本对总体进行推论。

雪球抽样

a.内涵

雪球抽样即网络抽样,是一种根据已有研究对象的介绍,不断辨识和找出其他研究对象的累积抽样方法。雪球抽样开始时,样本可能只有一个或少数几个人,但在随后的时段里,这几个人会凭借自己的社会关系,介绍新人加入,新人也有社会关系,于是,随着关系网络的不断扩大,样本也越滚越大,可见雪球抽样是一种多阶段的技术。

b.适用人群

第一,适合用来对成员难以找到的总体进行抽样,如城市中的散工、无家可归的流浪者和吸毒者等。

第二,可以用雪球抽样对具有一定网络联系的总体进行抽样。

c.雪球抽样的结果

雪球抽样理想的结果是“雪球”滚到了大于所需样本规模的人群,这时可在某个时点中止“雪球”的滚动。如果“雪球”滚到一定数量的对象后,样本无法再扩大,就需要找圈子以外的人,以他们为核心继续“雪球”的滚动,直至“雪球”达到样本规模为止。

3概率抽样设计要点

抽样设计包含以下内容:编制抽样框,选择抽样方法,估计抽样误差,确定样本规模。

(1)编制抽样框

研究者进行概率抽样,必须先找到一份近似涵盖所有总体元素的清单,然后从中抽取部分元素,这份元素清单被称为抽样框。不同的调查形式,会形成不同的抽样框。对于整群抽样,不需要编制整个总体元素的清单,只需要编制完整的群的清单即可。而对于多级抽样只是在最后一级才需要编制总体元素的清单,此前各级则只需要编制相应的各级抽样单位(群)的清单就行了。应最大限度保证抽样框的完整性,一旦抽样框出现总体元素缺失情况,便会产生非抽样误差,进而直接影响总体推论的精度。

(2)选择抽样方法

概率抽样是按照随机原则从总体中抽取部分元素构成样本来推断总体数量特征的方法。随机原则是指抽样时总体的每个元素都有一个已知的、非零的被抽取选择的概率。给每个总体元素以相等的抽取概率的抽样设计称作等概率抽样,如果总体中至少有一个元素的抽取概率与其他元素的抽取概率不相等,就是不等概率抽样。对于不等概率样本,通常需要利用加权技术对其数据进行修正。

常见的概率抽样方法包括:简单随机抽样、系统抽样、分层抽样、整群抽样和多级抽样等。

在调查中究竟选择何种抽样方法则与抽样框的获得、目标总体的相关信息及地理分布、抽样效率和实地调查的执行方式等因素有关。在实际抽样设计中,经常综合采用几种抽样方法。

(3)估计抽样误差

抽样误差的含义

抽样调查的一个主要目的是通过由抽样获得的统计值来估计未知的总体参数值。统计值与参数值之间的差异被称为抽样误差,它是由抽样变异性,即由随机选择过程引起的样本统计值围绕总体参数值波动所致。

抽样误差的决定因素

抽样误差的大小主要取决于总体的异质性程度和样本规模,总体异质性高或样本规模小,都可能产生较大的抽样变异性,反之,则产生较小的抽样变异性。

可容忍的抽样误差和估计效应

在抽样设计中,考虑到抽样变异性的存在,必须事先确定可容忍的抽样误差和估计效应的大小。

a.可容忍误差取决于某一置信度下预期统计值的置信区间的大小,而置信度则代表了置信区间包含参数值的概率。

b.估计效应的大小是指自变量可能给因变量造成的变化。只有明确了估计效应的大小,才能判断出因变量的变化究竟是由自变量的影响所致,还是仅仅是抽样变异性的作用结果。

(4)确定样本规模

由于样本规模的大小直接影响到抽样变异性,因此抽样设计需要事先估计有效样本规模。用于有效样本规模计算的方法有以下两种:

与可容忍误差有关,主要用于描述性研究

效力检验,主要用于分析性研究

a.它主要与估计效应有关,即确定某一特定的样本规模,能否使所关注的因变量的变化对自变量的影响具有足够的敏感性。增加样本规模能够减少标准误差,进而提高拒绝零假设的可能性。

b.有效样本规模还会受到抽样方案变动和子群体数量较小等因素的影响。所以,在考虑到多种因素之后,抽样设计中样本规模的确定通常是一个多次更改的迭代过程,设计之初未考虑到的后续影响因素,往往会改变前面做出的决定。

二、总体与抽样框

1定义总体

编制抽样框工作的第一步是定义总体,只有对总体构成及边界有一个清晰的认识,才能最大限度地使抽样框与总体保持一致。

(1)总体的分类

目标总体

目标总体是指理论上具有研究者所考察特征的全体总体元素的集合体。

抽样总体

在实际抽样中,有些总体元素并不一定都能有机会被抽取到。由那些有机会被抽取到的总体元素构成的集合体,就是抽样总体或调查总体,它是排除了研究总体中的一些特例后的总体。

(2)定义总体的步骤

明确分析单位

即要搞清楚调查研究所关注的是个人、家庭住户、集体住户,还是其他类型的居住单位。研究者采用何种分析单位,主要取决于他的研究问题。

定义总体边界

a.对总体涉及的地理或行政边界加以说明。

b.对被调查对象进行必要的说明,包括合格的被调查对象的年龄、居住类型等。

2编制抽样框

对于抽样而言,真正有操作意义的是确定抽样框,没有抽样框实际抽样就无法进行。

(1)抽样框的分类

名单抽样框,即把抽样总体中所有能找到的调查对象名单排列起来。

区域或面积构成的区域抽样框。区域抽样框由定义明确的区域组成,除少数由纯区域构成的区域抽样框外,在大多数情况下,区域都是由个体单位组成的。前者的抽样单位就是区域本身;而后者的抽样单位则是区域内的个体单位,这时可以有两种抽样方法:

a.抽出区域后对其中的所有单位进行调查,即整群抽样;

b.抽出区域后对区域内的单位再抽样,即多阶段抽样,经常用于抽样总体较大,编制全体抽样单位的名单很困难的情况。

(2)抽样单位

抽样框中的总体元素又称抽样单位,有时抽样单位与分析单位是相同的。但在较大范围的多阶段抽样中,可能有多个层次的抽样单位。在各式各样的抽样框中,人口普查数据是比较完整、比较可信的抽样框。特别是对于全国抽样调查来说,缺少人口普查数据可能会使抽样框产生无法克服的误差。

三、概率抽样

基本抽样方法包括简单随机抽样、系统抽样、分层抽样、整群抽样、不等概率抽样和多阶段抽样等几种形式。

1简单随机抽样

(1)简单随机抽样的含义

简单随机抽样即纯随机抽样,是严格按照随机化原则从含有N个单位的总体中抽取n个单位组成样本(N>n),在抽样过程中总体的每个单位都有同等的机会入选样本,而且每个单位的抽取都是相互独立的。

(2)简单随机抽样的分类

根据被抽中的元素是否放回总体,又可分为放回简单随机抽样和不放回简单随机抽样,在实际抽样中大多采用不放回抽样。简单随机抽样是概率抽样的最基本形式,其他概率抽样方法都是在此基础上派生出来的。常用的简单随机抽样方法包括:抽签法和随机数法。

(3)常用的简单随机抽样方法

抽签法

当总体数目不大时,可以采用抽签法。具体操作方法是:

a.用均质材料做成N个签,给每个签编一个号码,将这N个签充分混合;

b.一次抽出n个签;或每次抽取一个但不放回,再抽另一个直至抽到n个签为止。这抽出的n个签上的号码就是入样的单位号码。

随机数法

当总体单位很多时,通常采用随机数法。具体操作可以利用随机数表、随机数骰子、计算机产生的伪随机数等进行抽样。

a.随机数表

在几种操作方式中,最经常用到的是随机数表。随机数表是由范围在00001~99999内的5位数的随机数,按行和列排序构成的。用随机数表产生随机数,需要解决以下一系列问题:

第一,确定选出的随机数的位数;

第二,决定从5位数组中选择哪几位数字,这里关键是要预先约定好规则,然后一直按此规则行事;

第三,确定在表中选择数字的顺序,这里关键是要预先约定好规则,然后一直按此规则行事;

第四,确定开始选择的5位数组起点;

第五,处理大于总体规模或重复的随机数。

b.随机数骰子

除了随机数表,随机数骰子也是一种产生随机数的工具,它是由均匀材料制成的正20面体,每一面上分别标有0~9的数字各2个。使用时,可根据总体规模N的位数,决定使用几枚骰子,并同时规定好不同颜色骰子所代表的位数。将骰子放入盒内摇匀,然后打开盒盖,读取各枚骰子面朝上的数字,即可获得一个随机数。

c.计算机

由于许多统计软件都有产生随机数的程序,因此利用计算机产生随机数是一种方便、快捷的方法。但必须指出的是由统计软件产生的随机数是伪随机数,在通常情况下有循环周期,故一般无法保证其随机性。尽管有些统计软件产生的伪随机数有较长的循环周期,但为了保证抽样的随机性,在有条件的情况下,最好还是使用随机数表或随机数骰子来产生随机数。

2系统抽样

系统抽样即机械抽样。即将N个总体单位按一定顺序排列,然后先随机抽取一个单位作为起始单位,再按某种确定的规则抽取其他n-1个样本单位。系统抽样是独立于简单随机抽样的另一种随机抽样方法,其效果与简单随机抽样相近,但操作起来却容易得多。

在系统抽样中,等间距抽取是最常用的规则,故系统抽样经常被称为等距抽样。由于抽样使用的是抽样间距,而不是随机数,故等距抽样是一种准随机抽样方法。常用的等距抽样方法包括:直线等距抽样和循环等距抽样,二者的区别在于总体规模N是否为样本规模n的整数倍。

(1)整数抽样间距

当N是n的整数倍,即抽样间距k=N/n是整数,可使用直线等距抽样。即在算出抽样间距后,先在1~k范围内抽取一个随机数r作为起点,然后每隔k个单位抽出一个单位,直到抽出n个单位。抽中单位的号码分别为:

r,r+k,…,r+(n-1)k

(2)非整数抽样间距

当N不是n的整数倍,即抽样间距k=N/n不是整数,若再利用直线等距抽样就无法保证每个总体单位以相等的概率入样。为了使样本均值为无偏估计,可以采用以下两种方法进行抽样:

循环等距抽样方法

先将N个总体单位首尾相接排成一个封闭圆,抽样间距k取最接近N/n的整数,再从1~N中随机抽取一个随机起点作为起始单位,然后每隔k抽取一个单位,直到抽满n个单位为止。由于随机起点是1~N中的任意一个,因此每个总体单位入样的概率是相等的。

调整直线等距抽样

a.将非整数的抽样间距k的小数点后移一位,使其成为整数(k*10),然后在10~(k*10)之间选定一个整数的随机起点(r*10);

b.将(r*10)的小数点移回来,成为非整数的随机起点r。由r开始每隔k个单位抽出一个单位,直到抽出n个单位。抽中号码分别为:

r,r+k,…,r+(n-1)k

c.将上面号码的小数部分略去,得到相应地入样单位的号码。

(3)总体单位的排列

简单随机抽样为基础的概率抽样,在抽取样本之前需要对总体单位编号,如果总体单位很多,则工作量较大。而使用系统抽样则无需对总体单位编号,所需要的只是将总体单位按顺序排列。不过并非所有排列顺序都能满足系统抽样的要求,与系统抽样有关的单位排列有以下几种情况:

总体单位随机排列

总体单位按随机顺序排列的系统抽样称为无序系统抽样,其效果等价于简单随机抽样。

总体单位线性趋势排列

即总体单位按某个辅助变量的大小顺序排列,而这个辅助变量与所研究的指标值线性相关。对线性趋势总体进行系统抽样称为有序系统抽样,其效果优于简单随机抽样。

总体单位周期排列

即总体单位指标值按其顺序呈周期性变化。对于周期排列的总体,系统抽样的估计效果与抽样间距以及单位指标值的变化周期有关。

a.当抽样间距等于周期倍数时,抽到的任意一个样本单位都有相同的取值,相当于从总体中随机抽取了一个单位,这时样本的代表性最差。

b.当抽样间距等于半周期倍数时,大部分情况下,样本会依次重复地取两个高低不等值,系统抽样会得到无偏的均值估计,样本的代表性会有所改善。

c.抽样间距不等于周期倍数或半周期倍数,在掌握了总体周期结构的基础上,选择合适的抽样间距,可以抽到周期排列总体中的大部分指标值,得到代表性较好的样本。

3分层抽样

(1)分层抽样的含义

分层抽样即类型抽样,是先将总体N个单位,按某种特征划分成若干个子总体,称为层,然后在每个层中分别独立地进行抽样,最后,将抽出的子样本合起来构成总体的样本。

(2)分层抽样的逻辑

如果单位之间差异很大,那就对它们进行分组,使得各组内的差异变小,这样在各组内进行抽样就会提高精度,增加样本的代表性。分层抽样并不是一种独立的抽样方法,它实际上是一种重新组织总体单位的方法,最终各层内的抽样仍要采用简单随机抽样或系统抽样进行。

(3)分层抽样的优点

降低总体异质性程度;

便于对各层指标进行推算;

有利于抽样工作的组织。

(4)对总体进行分层需要考虑以下几个问题

样本规模在各层的分配

a.样本规模按比例分配,即各层的子样本单位在总样本中所占的比例,与各层单位在总体中所占的比例完全相同,按比例分配是自加权的,这时样本结构与总体结构完全一样。

b.样本规模非比例分配,非比例分配设计最常见的目的如下:

第一,对总体中规模太小的层进行比较研究。

当某些层的单位在总体中的比例太小,如果按比例分配样本,则这些层的样本规模会很少,无法进行统计分析,这时可以加大该层的样本规模,即使用较大的抽样比,以便对这些层的子总体进行研究和比较。

第二,在费用一定的情况下,获得尽可能高的抽样精度,又称为最优分配。

当各层的单位调查费用相等时,最优分配的原则是:层内单位标准差越大的层,抽样比越高。这时抽样比与层内单位标准差成正比。当各层的单位调查费用差异较大时,最优分配的原则是:单位调查费用越低的层,抽样比越高。这时抽样比与层内单位平均调查费用的平方根成反比。

c.一般说来,如果各层均值有很大差异,则采用按比例分配较好;而如果各层标准差有很大差异,则最优分配较好。

层的划分

a.分层变量

理论上,按调查目标变量进行分层是最好的,但在调查之前目标变量的值是不知道的,因此只能是根据与目标变量尽可能相关的辅助变量进行分层,常用的辅助变量包括性别、年龄、职业、教育程度、收入、地域、民族和宗教等。

b.层数

除非层的划分是按自然层或单位类型进行的,否则分层时层的数量越多越好,因为层越多就越容易形成层内个体的相似性。但在实际抽样中,层的数量受到以下限制:

第一,样本规模的限制

因为要考虑估计量方差的无偏估计,故每层至少要有两个样本单位,这样层数就不能超过n/2。

第二,调查经费的限制

.增加层数势必会增加调查的管理费用,而当层数增加到一定的时候,在精度上的收益将非常小,这就是收益递减现象;

.在调查费用一定的情况下,增加层数必然导致降低样本规模,而每层的样本规模越小,对总体方差的估计值也就越不精确,这时就要考虑增加层数而降低样本规模在精度上是否合算。

分层抽取样本的方法

在分层抽样中,有两种常见的样本抽取方法。

a.将所有总体元素按分层变量进行分层,并计算各层在总体中的比例。接着如果采用等比例分层抽样,则直接将总体比例视为样本比例;如果采用不等比例分层抽样,则需要对样本比例做一定的调整。最后,再按确定的样本比例,用简单随机或系统抽样的方法,抽出适量的样本元素。

b.先将所有总体元素按分层变量进行分层,然后将各层的总体元素一层一层连续排列,最后对连续排列的总体元素进行等距抽样。这种方法被称为分层等距抽样,适用于等比例分层抽样。

4整群抽样

(1)整群抽样的含义

整群抽样是先将总体划分成若干个群(视为初级单位),每个群包含若干个次级单位,然后以一定方式从总体中抽取一部分群,并由中选群中的所有次级单位构成总体的样本。通常情况下,整群抽样的抽样误差大于简单随机抽样。但进行简单随机抽样或分层抽样需要包括所有总体单位的抽样框,这在实际抽样中由于缺乏足够的信息资料,往往是难以实现的。而编制群的抽样框相对是比较容易的。而且在大范围调查中,抽取群也使得调查单位的分布相对集中。

(2)群的性质

自然群,即由行政或地域区划形成的群。

调查人员人为划定的群,需要考虑如何划分群,使得调查费用一定时抽样误差最小。群的划分遵循以下原则:群内方差尽可能大,群间方差尽可能小。

(3)规模不等的群

在社会调查中,总体中的群大多是规模不等的,这时不同的抽样可能会抽中不同的群,因此样本规模也不再是常数了。

为了保证样本单位满足等概率原则,可以采取以下相应措施来控制样本规模的变动:

按群的大小进行分层,然后对各个层使用相同的抽样比。这样可以保证抽样结果中总是分别包括一定数量规模不等的群,进而使得样本规模不至于有很大的变化;

重新组合大小不等的自然群,形成一些新的规模相差不大的人工群,进而使得样本规模约等于常数。通常用在总体中大多数群相差不大,只有少数群较大或较小需要重新组合的情况下,如果有太多的群需要重新组合的话,则工作量太大,不合算。

5不等概率抽样

(1)不等概率抽样的含义

不等概率抽样是指在抽样过程中,总体每个抽样单位有一个被抽中的概率值,这些概率值可能不相等,即不同的总体抽样单位人样的可能性可以是大小不等的。之所以采用不等概率抽样方法,主要是因为当总体抽样单位之间差异较大时,等概率抽样可能会增大估计误差,降低估计精度,从而对抽样效果产生不良影响。

(2)不等概率抽样的实施方法

代码法

代码法比较适合于总体抽样单位的规模N不太大时。

拉希里法

当总体抽样单位的规模N很大时可以使用拉希里法。其方法是:设M*=max(Mi)。每次从[1,N]中抽取一个随机数i,并在[1,M*]中抽取一个随机数m,如果Mi≥m,则第i个抽样单位入样,如果Mi<m,则依照上述步骤,重新抽取i,m。第i个抽样单位是否被抽中与m有关,只有m≤Mi时它才能被抽中。

6多阶段抽样

(1)多阶段抽样的含义

多阶段抽样是指按总体内的层级关系,把抽样分成几个阶段来进行。

最初从总体中抽出的群被称为初级抽样单位(PSU),如果PSU的规模相等,用简单随机抽样或等距抽样方法,直接进行第二阶段的抽样,这时第二级单位是等概率入样的,而且样本规模是常数。

如果群规模不等,则存在样本规模随机变动问题。多阶段抽样样本中规模随机变动问题,是由于要保持抽样的等概率条件,即保持总抽样比不变产生的。具体处理方法包括:分层多阶段等概率抽样和多阶段PPS抽样。

(2)分层多阶段等概率抽样

将总体中规模不等的群按规模(或重要性)分层;

在不同阶段对不同的层使用不同的抽样比。

(3)多阶段PPS抽样

多阶段PPS抽样关键是在第一阶段抽取PSU时,要先放弃等概率抽样条件,采用PPS抽样方法,即赋予规模不等的群与其规模(或辅助变量)成比例的入样概率,然后以一个固定的样本规模从抽中的PSU内抽取样本单位。需要说明的是,在用PPS方法进行多阶段抽样时,第一阶段以及中间各个阶段的抽样都是PPS抽样,只是最后阶段的抽样才抽取固定数量的抽样单位。

(4)规模测量值

进行PPS抽样的一个前提条件是,要在具体抽样前知道各级抽样单位的规模。可是在抽样前一般无法确切知道抽样单位的实际规模,为了能使用PPS方法,只能代之以各级抽样单位规模的估计值M,称为规模测量值。

四、抽样误差与样本规模

实际抽样中影响样本代表性的有两类误差:抽样误差和非抽样误差。

抽样误差是一种随机误差,它是由于样本范围与总体范围的差异而引起的误差,无论怎样精致的抽样设计,都会产生抽样误差。不过在概率抽样中,抽样误差是可以估算出来的。

1简单随机抽样的抽样误差

(1)放回简单随机抽样

根据中心极限定理,在放回抽样条件下,如果样本规模为n,总体标准差为σ,则样本平均值M的抽样分布的标准差,即标准误差SE为:

在样本规模很大的情况下,通常可以用样本的标准差S作为总体标准差的近似值,于是有:

在实际抽样中,还经常用到样本比例P的标准误差。在放回抽样条件下,如果样本规模为n,总体比例为P,总体标准差为:

样本比例P的标准误差为:

当样本规模很大时,可以用样本比例p来代替总体比例P,于是有:

(2)不放回简单随机抽样

在不放回抽样中,计算标准误差要在放回简单随机抽样基础上,引入一个不放回抽样校正因子:

这时样本均值和样本比例的标准误差分别为:

式中N为总体容量。

由于社会调查中N一般较大,N~1近似等于N,于是有:

式中n/N=f称为抽样比。

不放回抽样主要用于总体较小时,如果N较大(n/N<0.05),则校正因子可以忽略。另外,由于(1一n/N)<1,所以放回抽样的抽样误差总是大于不放回抽样的抽样误差。

(3)标准误差的意义

由中心极限定理可知,如果样本规模很大,则抽样分布近似为正态分布抽样分布的均值M就是总体的均值μ。由于抽样分布近似为正态分布,因此任意两个样本均值差之间,样本均值频数所占的比例是可以知道的。

2简单随机抽样的样本规模

样本规模又称样本容量,是指样本中所包含元素的数量。样本规模一方面会影响到样本的代表性,另一方面会直接影响到调查成本的大小。因此,在实际抽样中,选择合适的样本规模是非常重要的。

(1)影响样本规模的因素

如果不考虑经费问题,那么样本规模主要取决于抽样精度和总体标准差。一般说来,抽样希望达到的精确度越高,总体的异质性程度越显著,所需的样本规模就越大。

抽样精度是指抽样中希望达到的精确度,即能够容忍的抽样误差。

抽样误差是样本统计量与总体参数值之间的偏差,而偏差是由于样本与总体不一致造成的。样本越小,与总体差异就越大,因此,误差也越大。能够容忍的抽样误差越小,即要求的抽样精度越高,则样本规模也越大,反之亦然。

总体标准差σ是反映总体元素间异质性程度的指标,一般说来,在给定抽样精度后,总体异质性程度越小,所需样本规模也越小,反之,则越大。这是因为异质性越小,总体参数的分布越集中,波动性越小,大小相同的样本的代表性就越好。

(2)样本规模的估算

假设研究目的是要求出某个变量(X)在总体中的均值p-M。从一个随机样本(n)计算出来的均值(X)与总体均值(M)的差就是抽样误差P,即e=∣X-M∣

M=X-±e

又假定总体标准差为σ,则在置信度给定时,置信区间为M=X-±ZSE=X±e

在放回抽样中

样本规模为:

在不放回抽样中

样本规模为: