1.2 抽样过程
为了保证样本的随机性和代表性,同时达到CHFS着眼于研究家庭资产配置、消费储蓄等行为的目的,本项目的整体抽样方案采用了分层、三阶段与规模度量成比例(PPS)的抽样设计。第一阶段抽样在全国范围内抽取市/县;第二阶段抽样从市/县中抽取居委会/村委会;最后在居委会/村委会中抽取住户。本项目首轮调查的户数设定为8438户,第二轮调查的户数约为28000户,第三轮的调查户数为40000余户。
中国家庭金融调查与研究中心于2011年7月至8月实施了第一轮访问。初级抽样单元为全国除西藏、新疆、内蒙古和港澳台地区外的2585个县(区、县级市)。在第一阶段抽样中,我们将初级抽样单元按照人均GDP分为10层,在每层中按照PPS抽样抽取8个县(区,县级市),共得到80个县(区、县级市),分布在全国25个省份。在每个抽中的县(区、县级市)中,按照非农人口比重分配村、居委会的样本数,并随机抽取相应数量的村、居委会,且保证每个县(区、县级市)抽取的村、居委会之和为4个。在每个抽中的村、居委会,本调查根据社区住房价格对高房价地区进行重点抽样,即房价越高,分配的调查户数就相应越多。由此得到每个社区访问的样本量为20至50个家庭。在每个抽中的家庭,对符合条件的受访者进行访问,所获取的样本具有全国代表性。进行第一、二层抽样时,在总体抽样框中利用人口统计资料进行纸上作业;进行末端抽样时,采用地图地址进行实地抽样。
2013年,中国家庭金融调查的样本进行了大规模扩充。初级抽样单元(PSU)为全国除西藏、新疆和港澳台地区外的全部市/县。在数据具有全国代表性的基础上,通过抽样设计使得数据在省级层面也具有代表性。具体做法是,在第一阶段抽样时,在每个省内将所有县(区、县级市)按照人均GDP排序,然后在2011年抽中县(区、县级市)的基础上,根据人均GDP排序进行对称抽样。例如,某省共有100个县(区、县级市),将其按照人均GDP排序后,若2011年抽中的市/县位于第15位,则对称抽取人均GDP位于第85位的市/县。在此基础上,若2011年该省抽中的县/市样本过少,对称抽样不足以构成省级代表性时,将采用PPS抽样的方式追加市/县样本(具体实施方法见对新增省份抽样方法的描述)。对于新抽中的宁夏、内蒙和福建三个省,同样采用概率比例规模抽样(PPS)法抽取市/县样本。具体做法为,对该省内所有县(区、县级市)按照人均GDP排序,然后以人口为权重,采用等距抽样抽取市/县样本。在第二阶段抽样中,我们对新增市/县样本使用了与2011年不同的抽样方式。在所有新抽中的县(区、县级市)内部,按照非农人口比例将各个街道(乡)、居委会(村委会)排序,然后使用以人口为权重的PPS等距抽样方式抽取4个村、居委会。
2015年在2013年调查样本量的基础上,再次进行了扩样,使得调查样本具备全国、省级层面和副省级城市的代表性,最终得到的样本包含351个县(区、县级市),1396个居委会(村委会),涵盖全国29个省份。
1.2.1 绘制住宅分布图
本项目的末端抽样建立在绘制住宅分布图以及制作住户清单列表的基础上,借助“住宅分布地理信息”作为抽样框来进行末端抽样。末端抽样框的精度很大程度上取决于实地绘图的精度,因此,如何有效的提高绘图精度成为关键。
CHFS的绘图采用项目组自行研发的地理信息抽样系统,借助3G(遥感、GPS、GIS)技术解决了目标区域空间地理信息的采集问题。借助地理信息研究所提供的高精度数字化影像图和矢量地图,绘图员在野外通过电子平板仪加上GPS定位获取高精度的测量电子数据,并直接输入到计算机系统中,从而获得高质量矢量底图。考虑到地图数据的时效性,通过后期实地核查、人工修正的方式对空间地理数字模型进行调整,建立起与现实地理空间对应的虚拟地理信息空间。
该系统除了使绘图工作人员能直接在电子地图上绘制住宅分布图外,还能储存住户分布信息,辅助完成末端抽样工作,在最大程度上提高工作效率,减少绘图和末端抽样误差。此外,使用电子地理信息抽样系统也有利于保存住户信息资料,为进一步深化和改进项目工作奠定基础。
1.2.2 末端抽样
末端抽样基于绘图工作生成的住户清单列表并采用等距抽样的方式进行。具体步骤如下:
第一,计算抽样间距,即每隔多少户抽选一个家庭。计算公式为:
抽样间距=住户清单总户数÷设计抽取户数(向上取整)
若某社区有住户100户,计划抽取30户,100/30=3.33。则抽样间距为4。
第二,确定随机起点。计算抽样间距后,在第一个间距内采用随机法确定起点。
第三,确定抽中住户。随机起点所指示的住户为第一个被抽中的住户。在上述例子中,随机起点为4,则第一个被抽中的住户是编号为4的住户,其他被抽中的住户依次为8、12、16、20等等依次类推,直至抽满30户为止。
在抽样中对家庭的定义如下:家庭可分为多人家庭和单人家庭。多人家庭由夫妻、父母、子女、兄弟姐妹等构成,可以直接访问;单人家庭又分为以下两种情况:没有其他家人,可以直接访问;在其他地方有家人,但经济相互独立,则其他家人不算作本地区的家庭成员。同时,家庭中必须至少有一人是中国国籍,在本地区居住至少6个月以上。总的来说,识别家庭的原则是任意满足下列条件之一:共享收入,共担支出。
1.2.3 加权汇总
在我们的抽样设计下,由于每户家庭被抽中的概率不同,因此每户家庭代表的中国家庭数量也就不同。在推断总体的时候,需要通过权重的调整来真实准确地反映每户样本家庭代表的家庭数量,以获得对总体的正确推断。中国家庭金融调查的所有计算结果都经过抽样权重的调整。抽样权重的计算方法如下,根据每阶段的抽样分别计算出调查市县被抽中的概率P1、调查社区(村)在所属区县被抽中的概率P2以及调查样本在所属社区(村)被抽中的概率P3,分别计算出三阶段的抽样权重W1=1/P1、W2=1/P2、W3=1/P3,最后得到该样本的抽样权重为W=W1×W2×W3。根据实际情况,考虑到调查样本的城乡、性别、年龄比例等分布的不均衡,因此还会进行分组调整。