第二节 队列研究
一、队列研究的相关概念及原理
(一)队列研究的相关概念 1.队列(cohort)
队列原意是指古罗马军团中的一个分队,流行病学家借用表示一个特定研究人群组。职业病监测中,常用具有某种共同暴露(或特征、行为)的一组调查对象为队列或暴露队列(exposure cohort),如某个时期进入某工厂工作的一组人群。组成队列的调查对象可以是个人,也可以是用人单位。
根据调查对象进出队列的时间不同,队列又可分为两种:一种叫固定队列(fixed cohort),是指调查对象都在某一固定时间或一个短时期之内进入队列,之后对其进行随访观察,直至观察期终止,调查对象没有因为结局事件以外的其他原因退出,也不再加入新的调查对象,即在观察期内保持队列的相对固定。另一种叫动态队列(dynamic cohort),即在某队列确定之后,原有队列的调查对象可以不断退出,新的观察对象可以随时加入。
2.暴露(exposure)
暴露是指调查对象接触过的某种待研究因素,或具有某种待研究的特征、行为。暴露在不同的研究中有不同的含义,暴露可以是危险因素,也可以是保护因素,但一定是本研究需要探讨的因素,因此,它是与特定的研究目的密切相关的研究因素。暴露就是为何会出现结局事件的“原因”,即导致结局事件(“结果”)产生的原因。
职业病监测中的暴露因素可以是化学、物理、生物等职业病危害因素,或某一特征性生产工艺流程、工作过程、工作环境;也可以是某一特征性的职业病防治软件管理措施、硬件防护措施;或劳动者、管理者、用人单位固有的特征行为,或人为施加特征因素。暴露对结局的出现,即暴露因素对职业病、职业健康损害的发生,可能是正相关,也可能是负相关,可以是有害的,或可以是有益的。值得注意的是,队列研究中的暴露因素是在研究之前就已经存在的。
3.危险因素(risk factor)与保护因素(protective factor)
危险因素,又称为危险因子,泛指能引起某种特定不良结局(如职业病、职业健康损害、职业人群多发疾病等)发生或使其发生的概率增加的因子,包括个人行为、组织行为、生活方式、环境和遗传等方面的因素。
保护因素,泛指危险因素的反面因素,如职业病危害干预措施。
危险因素和保护因素都可以作为调查的暴露因素,统称为决定因素(determinant factor)或影响因素。
4.结局(outcome)
结局也称结局变量(outcome variable),是暴露因素的结果事件。在队列研究中,结局是指随访观察中将出现的预期结果事件,也即研究者希望追踪观察的事件。结局就是队列研究观察的自然终点(natural end)。
研究结局的确定应全面、具体、客观。结局不仅限于发病、死亡,也有健康状况和生命质量的变化,在职业病防治中,结局也可以是某一政策、某一措施带来的结果。结局既可以是终极结果,如患职业病;也可以是中间变量,如以某一职业健康促进措施为暴露,其结局是劳动者个人防护用品使用率上升。结局既可以是定量的,如职业健康素养得分水平与劳动者个人防护用品使用率;也可是定性的,如职业病防治机构的设置对区域职业病诊断的影响。结局既可以是负面的,如职业病、职业健康损害的发生;也可是正面的,如职业健康得到保护。
结局变量的测定,应有统一明确的标准,并全过程保持不变。每一结局事件,其表现形式多样,如同一种职业病、同一种职业健康损害,往往有多种表现,有轻、有重,有急性、有慢性,有显性表现、有隐性表现;对某一项职业病防治措施,其实施结局的效果判断,也易受主观因素影响。因此,应按统一的标准判断结局,客观、准确地记录下观察到的信息。职业病诊断标准、职业健康监护技术规范是职业病监测的常用标准。
队列研究的结局变量测定,可以在研究中同时对多种结局资料进行收集,研究单因多果的关系。即在队列研究中,除确定主要研究结局外,还可考虑同时收集多种可能与暴露有关的结局,提高研究效率。
5.观察终点(end-up)与观察终止时间(end-time)
观察终点与观察终止时间两者不同,但都影响队列随访的结果。前者系指队列中的某研究对象出现了预期的结果,即该研究对象出现了预期的观察结局事件;后者系指整个队列研究终止的时间,也即预期可以得到整个队列研究结果的时间。到达观察终点,就不再对观察对象继续随访。到达观察终止时间,即整个队列研究结束。观察终点的判断,即结局事件出现的判断,强调预先设定,且设定后的判断标准应稳定不变,否则观察结果会被随意扩大或缩小。
6.队列研究(cohort study)
队列研究,是根据队列中接触某种暴露因素程度的不同进行分组,通过追踪测量并比较队列中各组结局频率的差异,判定该暴露因素与结局之间有无因果关联及程度大小的一种观察性研究方法。观察测量的结局主要是与暴露因子可能有关的结局。
(二)队列研究的基本原理
队列研究的基本原理是选定不同暴露水平的人群(或单位集合)为研究对象,根据目前或过去某个时期是否暴露于某个待研究因素(危险因素或保护因素),或按其不同的暴露水平分成两组或多组,如暴露组和非暴露组两组,高剂量暴露组、中剂量暴露组和低剂量暴露组三组等。随访观察一段时间,测定并登记各组待研究的预期结局事件发生情况,如职业病发病情况、健康状况、职业病防治效果等,再用统计学方法比较各组结局的发生率,从而评价和检验研究因素与结局的关系。如果暴露组某结局的发生率明显高于非暴露组,则可推测暴露与该结局之间可能存在因果关系,暴露是该结局发生的危险因素或保护因素。
队列研究应遵循以下原则:
1.所选研究对象在随访开始时,必须没有出现所研究的结局,但在随访期内有可能出现该结局。
2.暴露因素不能是研究者人为给予的。
3.暴露组与非暴露组必须有可比性,非暴露组应该是除了未暴露于某因素之外,其他因素尽可能与暴露组相同。
4.暴露不是随机分配的,而是在研究之前已客观存在的,不受研究者意志决定,这是队列研究区别于实验研究的一个重要方面。
5.研究一开始就应确立研究对象的暴露状况,进而探求暴露与结局的关系,是由“因”及“果”。其纵向前瞻地观察研究对象的结局出现情况,这一点与实验研究方法一致。
6.结局应可计算发生率,或通过转换计算发生率,即研究的各组能对结局的出现率与暴露的联系强度直接评估。
7.不明原因的前瞻性研究(prospective study)的本质遵循队列研究。
在大型的流行病学研究中,为了提高效率,一开始不确定暴露因素,将一定范围内符合某种条件的研究对象组成一个队列,收集队列中各种暴露因素与结局的情况(第一阶段),再按暴露因素的种类或水平,分成不同的暴露组和非暴露组(第二阶段),然后按队列研究方法分析各种暴露与结局的关系。
职业病监测,常将某一区域、某一行业或某一工种的用人单位(或劳动者)组成一个调查队列,回顾性收集多种职业病危害因素(或已经存在的干预措施)与调查人群的健康状态(或事件结果)的情况,然后再将明确的、已经存在的职业病危害因素(或干预措施)按暴露程度分成不同的暴露组与非暴露组,进行前瞻性队列研究,精准地寻找结局的原因。然而,国内很多地方出于行政考量,在职业病监测的队列研究第一阶段就草率地确立职业病危害因素与健康损害关系,肯定干预措施的成效;甚至没有进入队列研究的第二阶段,就直接进行职业病防治政策、措施的推广应用。
二、队列研究的类型、特点及选择原则
以研究对象进入队列的时间及在队列中终止观察的时间,可将队列研究划分为三种类型:前瞻性队列研究、回顾性队列研究及双向性队列研究。
(一)前瞻性队列研究
前瞻性队列研究(prospective cohort study)是队列研究的基本类型。根据研究开始时的暴露状态,确定研究对象及分组。研究的结局还没有出现,需要观察、随访一定时间才能获得,因此,这种研究模式也称为即时队列研究(concurrent cohort study)。
1.前瞻性队列研究的特点
前瞻性队列研究优点:①暴露与结局的获取均是第一手资料,资料的偏倚较小;②在随访期内,还可以发现暴露因素与混杂因素的变化,用新方法获取新研究的指标;③其设计最接近于实验研究,其结果的因果关系推论可信度大。
前瞻性队列研究缺点:观察对象样本大、观察时间长、花费大,影响可行性。特别是对慢性职业健康损害,如职业性肿瘤、尘肺病等慢性职业病,其耗时可长达几十年。
2.前瞻性队列研究的选择原则
①对已经存在的暴露因素应做出明确规定,并能获得观察对象的暴露资料;②应明确规定结局变量,并有确定结局的简便、可靠的手段;③应有明确的检验假设,检验的因素必须找准;④所研究结局事件的发生率应较高,不低于0.5%;⑤应有足够的观察对象,并能清楚地将其分成暴露组与非暴露组;⑥大部分观察对象应能被随访到研究结束,并取得完整可靠的资料。
(二)回顾性队列研究
回顾性队列研究(retrospective cohort study),也称历史性队列研究(historical cohort study),研究工作从现在开始,研究的结局在研究开始时就已经出现,不需要前瞻性观察;研究的时间起点被假定在过去某个时间,研究对象的确定与分组,是根据这一假定时间其进入队列的暴露历史资料做出的,从这一假定的时间“前瞻性”地收集暴露与结局的信息,研究工作的性质是回顾性的,这种设计模式的研究就是回顾性队列研究。
1.回顾性队列研究的特点
回顾性队列研究的优点:①暴露与结局虽然跨时较长,但其资料搜集及分析却可以在较短时间内完成;②尽管搜集暴露与结局资料的方法是回顾性的,但究其性质仍是从因到果的,具有省时、省力、出结果快的特点。因此,慢性职业健康损害的监测,常用回顾性队列研究,分析、判断职业暴露因素与劳动者健康损害的因果关系。
回顾性研究的缺点:历史资料记录不完整性,导致回忆信息的丢失;影响暴露的混杂因素的资料缺乏。
2.回顾性队列研究的选择原则基本与前瞻性队列研究的选择原则一致,但还应考虑在过去某段时间内是否有足够数量的、完整可靠的、有关研究对象的暴露和结局的历史记录或档案材料。如职业病监测中完整的作业场所历年监测资料、劳动者历年的职业健康检查资料、用人单位职业病防治相关管理资料的历年档案等。
(三)双向性队列研究
双向性队列研究(ambispective cohort study)也称混合型队列研究,是在历史性队列研究的基础上,继续前瞻性观察一段时间,将前瞻性队列研究与历史性研究结合起来的一种设计模式。这种研究在职业病监测中很常用,先回顾性寻找可能的暴露因素,再前瞻性观察队列中暴露因素作用下出现的结局事件。
1.双向性队列研究的特点
双向性队列研究兼顾了回顾性队列研究与前瞻性队列研究的优点,一定程度上弥补了后两者的不足。
2.双向性队列研究的选择原则
①应基本具备进行历史性队列研究的条件;②如果从暴露到现在的观察时间还不能满足研究的要求,如结局事件还没有发生或没有完全发生,还需继续前瞻性观察一段时间,则选用双向性队列研究。
三、样本量的确定
(一)样本量的计算
在暴露组与对照组样本量相等的情况下,可用下式计算各组所需的样本量。
式中p1与p0分别代表暴露组与对照组的预期发病率(或结局事件发生率)为两个发病率的平均值,q=1-p,zα和zβ为标准正态分布界值,可查表求得。当α或β=0.05时,其值为1.96;α或β=0.01时,其值为2.58。
(二)影响样本量大小的因素
1.对照人群的发病率(或结局事件发生率,p0)系指一般人群中所研究的结局事件的发生率。在暴露组发病率p1>p0,且p1与p0之差在一定范围条件下,p0越接近0.5,则所需样本量就越大。
2.暴露组与对照组发病率之差(d)用p1表示暴露组的发病率,用一般人群发病率p0代替对照组发病率,d=p1-p0,为两组发病率之差,d值越大,所需样本量越小。如果暴露组发病率p1不能获得,可设法取得其相对危险度(RR)的估计值,由式p1=RR×p0计算得到p1。
3.要求的显著性水平(α值)即检验假设时的第Ⅰ类错误(假阳性错误)α值。α值越小,所需样本量越大。通常取α=0.05或0.01,取0.01时所需样本量比取0.05时大。
4.把握度(1-β)又称功效(power),β为检验假设时出现第Ⅱ类错误的概率,而1-β系指检验假设时能够避免假阴性的能力,即把握度。若要求把握度(1-β)越大,即β值越小,则所需样本量越大。通常取β为0.10,有时用0.20。
四、队列研究率的计算与效应的估计
(一)率的计算
队列研究中,结局事件发生率的计算是资料分析的关键,根据观察资料的特点,与率的计算相关的常用指标,方法有单组发生率计算、组与组发生率差异比较。单组发生率计算常见指标有累积发病率、发病密度、标化比等;组与组发生率差异比较方法有u检验、χ2检验等。
1.单组率的计算指标
如果研究对象的数量较大且比较稳定,则无论其发病(或事件发生)强度大小和观察时间长短,均可用观察开始时的人口(或观察对象)作分母,以整个观察期内的发病人数(或事件发生数)为分子,计算某病(或某事件)的累积发病率(或事件累积发生率)。累积发病率(事件累积发生率)的量值变化范围为0~1,报告累积发病率(事件累积发生率)时必须说明累积时间的长短,否则其流行病学意义不明。在职业病发病情况监测报告中,特别是慢性职业病发病情况报告,常常没有说明累积时间,使得其累积发病率失去意义。如尘肺病监测中的累积尘肺病例报告,没有说明累积时间。
如果队列研究观察的时间比较长,就很难做到研究对象的稳定。研究对象进入队列的时间也可能先后不一;观察终止时间前,可能由于迁移、竞争性死亡或其他原因退出,造成各种失访;研究对象也可能从观察到出现结局(观察终点)时间长度不同等等,均可造成每个对象被观察的时间不一样。因此,如果以总观察对象数为单位计算发生率是不合理的,因为提早退出研究的观察对象,仍有可能发生结局事件。因此,需以观察对象的单位时间(如人时)为分母计算结局事件的发生率,用单位时间(人时)为单位计算出来的率带有瞬时频率性质,称为发病密度(或事件发生密度)。最常用的人时单位是人年,以此求出人年发病率。理论上,发病密度的量值变化范围是从0到无穷大。
当研究对象数目较少,结局事件的发生率比较低时,无论观察的时间长或短,都不宜直接计算发生率,而是以全体对象的结局事件发生率作为标准,算出该观察对象群体的理论结局事件发生数,即预期结局事件发生数,再用观察对象群体中实际观察到的结局事件发生数与此预期结局事件发生数之比,就是结局事件发生的标化比。最常用的标化比为标化死亡比(standardized mortality ratio,SMR),这一指标在职业性肿瘤、职业性尘肺病监测中常用。标化比虽然是在特殊情况下用来替代率的指标,但实际上不是率,而是以全体对象(全人口)的结局事件发生率(发病率)作为对照组计算出来的比,其流行病学意义与效应指标(RR)类似。
2.组与组率的差异比较方法
由于队列研究多为抽样研究,这样两组率之间就存在着抽样误差引起的差异。u检验、χ2检验等统计学显著性检验方法是比较组与组之间率的差异的方法。
在一定条件下,u检验法可用来检验暴露组与对照组之间的差异。其条件一般是:当研究样本量较大,样本率的频数分布近似正态分布,如p和1-p都不太小,np和n(1-p)均大于5时,此时可应用正态分布原理来检验暴露组与对照组率的差异是否有显著性。
上式中p1为暴露组的率,p0为对照组的率,n1为暴露组观察人数,n0为对照组的观察人数,pc为合并样本率,其中X1和X0分别为暴露组和对照组结局事件的发生数。求出u值后,查u界值表得P值,按所取的检验水平即可做出判断。
当率稍大和样本稍大时,率的显著性检验可用四格表资料的χ2检验;对SMR或标化死亡比(SPMR)的检验,实际是对所得结果值偏离1的检验,其检验方法也可用χ2检验或计分检验(score test)。
如果率比较低、样本较小时,可改用直接概率法、二项分布检验或Poisson分布检验。
(二)效应的估计
队列研究可以直接计算出研究对象各组结局事件的发生率,因而也就能够直接计算出暴露组相对于对照组的危险性,从而可直接评价暴露的效应。
1.相对危险度(relative risk,RR)
相对危险度包括危险度比(risk ratio,RR)或率比(rate ratio,RR)。危险度比是暴露组的危险度与对照组的危险度之比,其测量指标是暴露组的累积发病率(或累积事件发生率)与对照组的累积发病率(或累积事件发生率)之比。率比是暴露组与对照组的发病密度(或事件发生密度)之比。危险度比和率比都是反映暴露与发病(或事件发生)关联强度的最有用的指标,有相同的表达方式和流行病学意义,但同一研究队列的危险度比和率比的数值是不同的,因为累积发病率和发病密度是不相等的。
式中Ie和I0分别代表暴露组和对照组的率。RR表明暴露组发生结局事件的危险性(或保护性)是对照组的多少倍。RR值越大,表明暴露的效应越大,暴露与结局关联的强度越大。暴露的效应可以是有害的,也可以是有益的。
2.归因危险度(attributable risk,AR)
也称危险度差(risk difference,RD)和超额危险度(excess risk,ER),是暴露组事件发生率与对照组事件发生率相差的绝对值,它表示危险特异地归因于暴露因素的程度,故又称特异危险度。
从上面公式计算及推导,RR与AR都是表示结局与暴露关联强度的重要指标,也密切相关,但它们的流行病学意义却不同。RR说明暴露对象发生相应结局事件的危险性是非暴露对象的多少倍;AR则是指暴露对象群体与非暴露对象群体比较,所增加的结局事件发生的数量,如果暴露因素消除,就可减少这个数量的结局事件发生。前者具有病因学的意义,后者更具有疾病预防和公共卫生学的意义,因此,在职业病监测中,更多的是用AR来评估职业病危害因素控制的效应。
3.归因危险度百分比(AR%)
又称为病因分值(etiologic fraction,EF),是指暴露对象群体中的结局事件的发生,归因于暴露的部分占全部结局事件发生的百分比。
4.人群归因危险度(population attributable risk,PAR)与人群归因危险度百分比(PAR%)人群归因危险度百分比也叫人群病因分值(population etiologic fraction,PEF)。PAR是指总人群发病率中归因于暴露的部分,而PAR%是指PAR占总人群全部发病(或死亡)的百分比。
RR和AR通过比较暴露组与对照组,说明暴露的生物学效应,即暴露的致病作用有多大;而PAR和PAR%则通过比较全人群与对照组,说明暴露对一个具体人群的危险程度,以及消除这个因素后该人群中的发病率可能降低的程度。它们既与RR和AR有关,又与人群中暴露者的比例有关。PAR和PAR%的计算公式如下:
It代表全人群的率,I0为非暴露组的率
另外,PAR%亦可由下式计算:
式中Pe表示人群中有某种暴露者的比例,从该式可看出PAR%与相对危险度及人群中暴露者的比例关系。