1.5 数据的有效性
1.5.1 样本量
统计分析是对总体里抽取的样本进行建模、计算和分析。通常,由于经费和时间的限制,样本仅是从总体中抽取的一部分。统计分析的结果能否反映总体的真实情况,主要取决于样本是否随机,而不是样本量。
样本量大小的真正作用是决定统计分析结果的误差,在严格随机抽样的前提下,抽样误差随样本量的增加以几何级数递减。样本量需要多大,这与需要反映的总体标准差有关,样本量的大小既不是“能很好反映总体情况”的必要条件,也不是它的充分条件。以收入为例:2011年CHFS数据中家庭收入均值为54271元,标准差为201438元。当样本量为8400户时,抽样误差为2200元,约是总体标准差的1%;当样本量为28000户,抽样误差为1200元,约是总体标准差的0.6%;当样本量为40万户,抽样误差为320元,约是总体标准差的0.2%。
因此,无论2011年的8400户还是2015年的40000余户,当我们的抽样严格按照随机抽样过程进行设计,调查实施也严格按照随机抽样原则更换样本,抽取的样本都足以正确推断总体。国内外的其他调查也能证明此观点,例如CGSS(中国综合社会调查)2006年的样本量约为10000户;SCF(美国消费金融调查)2007年之前25年的样本量保持在4000户,2008年开始增加为6500户;PSID(美国收入动态跟踪调查)2005年的样本量为5000户。
1.5.2 样本的代表性
在完全随机抽样下,由于富裕家庭的比例很低,其被抽中的概率也很低。可以想象,如果数据中没有包含富裕家庭样本,是无论如何也不能正确反映总体的。根据CHFS的研究目的,我们在抽样设计中采取了偏向富裕家庭的样本分配,就能够保证样本中包含相当部分富裕家庭。当然,这肯定会造成样本中富裕地区和富裕家庭的比重相对较大,但是可以通过权重的调整来反映总体的实际情况。这也是国际上绝大多数抽样调查统计中常用的办法。
权重的确定是根据抽样设计中每户家庭被抽取的概率进行计算。换言之,抽样时多投放富裕家庭样本,计算时富裕家庭的相对重要性就减小,其所代表的家庭户数也就相应低于其他收入层次的家庭。正是通过这一调整,我们能更准确的从样本推断总体的信息。
1.5.3 关于数据真实性的说明
①问卷设计的逻辑呼应
CHFS调查问卷设计时加入了前后逻辑呼应的考量,防止受访户有意识地乱报数据或者无意识地错报数据。当前后呼应的问题答案出现矛盾时,系统会自动提醒访员注意,访员会再次向受访户核实答案,确保数据的真实性。
②收入数据的低报与比较
客观地讲,我们难以杜绝受访家庭对某些敏感信息进行错报或瞒报,如收入、资产等。这也是全世界各项类似调查都必须共同面对的难题。以收入信息为例,CHFS数据全面地收集了受访家庭的每一项收入,具体包括工资薪金收入、农业生产净收入、工商业生产经营净收入、投资性收入和转移性收入。在这些信息中,收入数据的失真主要是由于高收入阶层低报收入水平或漏报收入来源导致。即使这样,CHFS的高收入阶层收入数据已经显著高于国内其他同比数据。例如,CHFS数据显示,人均年收入超过228600元就步入我国城镇地区收入最高1%人群的行列,而国家统计局的调查结果仅为86819元。
我们知道在调查中高收入阶层存在一定程度瞒报或低报收入的现象,我们的调查结果也许并不是准确的真相。然而,与其他同类调查结果相比,我们无疑更接近真相。为此我们将付出不懈的努力,用高质量的调查执行过程向真相不断逼近。
③学生访员的工作特点
CHFS访员绝大部分是由西南财经大学的本科生、硕士研究生、博士研究生和全职员工担任,另有少部分国内外各大高校的学生积极参与。我们有充分的证据表明,高素质与高学历的学生访员以极大的勇气和智慧、极高的责任心和创造力、极强的意志品质和执行力,克服巨大困难,极其出色地完成了调查访问工作。他们成功地打动了受访户,得到了受访户的积极配合。尤为难能可贵的是,他们敲开了中国高收入阶层的大门,成功走进这些家庭并搜集到宝贵的数据。
⑤样本家庭的长期维护
我们视40000户受访户家庭为朋友,与他们保持长期联系并建立有效的沟通渠道。每逢佳节我们会为受访家庭发送祝福的短信;重大节日会进行电话充值聊表心意;对部分关注调查结果的家庭,我们会及时赠送中心的各类研究成果;对生活困难或遭受灾害的受访家庭予以力所能及的物资援助。我们希望受访家庭信赖CHFS,重视CHFS,认同CHFS。随着调查的长期开展,随着彼此信任的加深,我们相信调查的可靠性、数据的真实性都会得到不断的提高。