四、数据采集、清理及统计分析方法
本次监测设计开发了中国慢阻肺监测信息收集与管理系统,旨在提高现场调查的工作效率和准确性、确保工作各流程间的顺畅衔接、减少由于数据录入而产生的错误、实时掌握调查工作的进展,同时通过此次实践推进慢性病监测手段的转变,将以往纸质问卷和数据录入为主的传统流行病学调查方式转变为以信息和网络技术为主的流行病学调查方式。中国慢阻肺监测信息收集与管理系统包括两部分(图1-1):
第一部分是监测点数据收集与管理。每个监测点设置一个数据收集工作站,以PAD作为数据采集工具,以笔记本电脑作为数据交换和存储终端;将监测调查表的各个部分设计成为电子化问卷,同时在电子化问卷中设计必填项、逻辑跳转、合理值范围、现场录音等质量控制功能,安装在PAD中,在调查过程中直接使用PAD收集数据;在调查现场设定局域网实时同步信息,实现PAD之间及PAD与计算机之间的信息同步和传输。
第二部分是国家级/省级的数据审核与管理。采用云计算服务器技术建立中心服务器,通过因特网将所有125个监测点的工作站连接入中心服务器,将工作站计算机终端中存储的调查表数据、肺功能数据、胸部X线检查数据自动收集进入中心服务器;对国家级工作组、省级工作组、监测点工作组开放不同访问权限并分配账户,各级工作组通过账户登录中心服务器,完成数据向中心服务器传输、掌握工作进度、肺功能质量评估、胸部X线检查阅片等工作。
本次慢阻肺监测数据全部采用电子问卷形式采集数据,通过互联网上传数据平台,并利用SQL数据库进行管理。根据监测内容,监测数据分为家庭问卷信息(104个变量)、个人问卷信息(317个变量)、身体测量信息(19个变量)、肺功能检查(41个变量)、胸部X线检查(7个变量)和CAT表(9个变量)。其中,个人问卷和肺功能检查分为多个子数据库。各数据库间通过个人编码进行关联合并。
本次监测制订统一的数据清理方案,清理过程由两组工作人员同时平行开展,以确保清理过程的准确性。数据清理包括不同数据库合并,查找剔除重复数据,数据库完整性评价,对缺失值、逻辑错误和离群值的诊断及处理,对重要信息缺失(年龄、性别、身高)的填补,以及对所有数据错误的统计分析。
本次监测数据分析共计纳入125个监测点的75 107条数据进行分析。分析主要以年龄、性别、城乡(城市、农村)和地域(东部、中部、西部)作为分层因素,采用率、构成比等指标进行统计描述。为使监测结果能够代表40岁及以上人群,监测结果采用复杂抽样加权调整方法进行调整。
由于本次监测采用了多阶段复杂抽样设计,需对样本进行抽样加权;由于抽样造成某些重要指标在样本与总体分布上有偏差(主要为年龄和性别的偏差),因此,需进行事后分层调整。
(1)抽样权重。按照本次监测的抽样设计,样本个体的抽样权重Ws计算公式如下:
Ws=Ws1×Ws2×Ws3×Ws4×Ws5×Ws6
Ws1为样本县/区的抽样权重,其值为分层简单随机抽样下样本县/区抽样概率的倒数,全国地区按东中西及城镇化率(城镇人口比例)水平(其中,城镇化率水平按照全国县/区各自城镇化率中位数划分为高、低2层),共6层,其计算公式如下:
Ws2为样本乡镇/街道的抽样权重,在PPS抽样过程中计算生成,其值为与人口数成比例的PPS抽样下样本乡镇/街道抽样概率的倒数。
Ws3为样本行政村/居委会的抽样权重,在PPS抽样过程中计算生成,其值为与人口数成比例的PPS抽样下样本行政村/居委会抽样概率的倒数。
Ws4为样本村民/居民小组的抽样权重,由于每个行政村/居委会只抽取1个村民/居民小组,权重的取值为个体所在行政村/居委会的村民/居民小组数量。
Ws5为样本家庭户的抽样权重,其值为个体所在家庭入样概率的倒数,即村民/居民小组内含40岁及以上成员的总家庭户数除以该小组内被抽中参加调查的家庭户数。
Ws6为样本个人的抽样权重,其值为调查个体入样概率的倒数。由于在每个家庭中只抽取1个40岁及以上居民参与调查,权重值即为个体所在家庭满足调查条件的40岁及以上居民数量。
(2)无应答权重:每个监测点县/区的无应答权重Wnr为该监测点应答率的倒数,即该监测点应完成调查的任务数除以实际参加调查的人数。
(3)事后分层权重:考虑的分层因素为:性别2层(男性、女性),年龄10层(40~44,45~49,50~54,55~59,60~64,65~69,70~74,75~79,80~84,85+)、地区3层(东、中、西部)、城乡2层(城市、乡村)。将抽样权重与无应答权重加权的监测样本与全国第六次人口普查人口按照分层因素分为120层,计算每层事后分层权重值的公式如下:
样本个体的最终权重: