上QQ阅读APP看书,第一时间看更新
第二节 系统评价的制作步骤
问题3:对于发现的临床问题,如何制作一篇系统评价?
当你在数据库中进行检索后发现,目前没有一篇系统评价能作为最佳证据来解答你临床的疑惑,那接下来该怎么办?你可以根据目前检索到的RCT研究,自己制作一篇系统评价,这样也为其他有类似疑问的临床医生提供最佳证据。
那如何制作一篇高质量的系统评价呢?
根据2000年David Sackett等对系统评价的定义“A summary of the medical literature that uses explicit methods to perform a thorough literature search and critical appraisal of individual studies and that uses appropriate statistical techniques to combine these valid studies”也就是说,系统评价是全面收集所有有关研究,对所有纳入的研究逐个进行严格评价,整合所有的研究结果进行综合分析和评价,必要时进行Meta分析,得出综合结论(如,有效、无效、应进一步研究以及安全性等),提供尽可能减少偏倚、接近真实的科学证据。
系统评价的制作包含以下步骤:
1.提出问题,制订研究计划
制作系统评价首先应提出问题,进行科研设计并制订研究方案。明确研究目的、提出研究问题是最重要和最基本的第一步,而且提出问题的过程也是系统复习文献的过程。提出研究问题应包含5个要素,即循证医学实践中的PICOS模式,P:patient or population(研究对象),I:intervention(干预手段),C:comparison intervention(干预措施与安慰剂或标准治疗的比较),O:outcomes(结局变量或疗效判定指标),S:study design(研究设计,如随机对照临床研究)。
确定研究问题后,应制订详细的研究计划书(protocol),包括研究问题的背景材料,文献检索的途径和方法,纳入标准(inclusion criteria)和排除标准(exclusion criteria)。拟定纳入与排除标准时,除考虑研究设计的类型、报告发表的时间、地区、语种、文献形式外,对每个独立研究,研究对象(年龄、性别、疾病类型、疾病严重程度)的选择、对照组(空白对照、安慰剂对照、标准治疗对照、常规治疗)的设置、药物或暴露(剂型、剂量、用药途径、疗程)的定义、随访的长短、结果的判断标准等均应有明确的规定。此外,还包括统计分析步骤,文献质量评价和结果解释等。
我们就拿本章开始提出的临床问题进行举例。上级医师关于是否给患者使用银杏叶提取物的意见不一,经过检索相关数据库,并未发现有关银杏叶提取物对于痴呆治疗效果的临床证据,因此决定自己制作一篇系统评价。首先,提出研究问题,即银杏叶提取物对痴呆治疗是否有效。根据PICOS模式,P:痴呆患者,包括阿尔茨海默病、血管性痴呆以及混合性痴呆;I:银杏叶提取物;C:安慰剂;O:日常生活能力量表(ADL)、简易精神状态筛查量表(MMSE);S:选取随机对照临床试验的研究类型等。
其次,撰写一份研究计划书(protocol),包含研究背景;纳入研究类型:随机对照临床试验(randomized controlled trials,RCT);研究对象:由公认的标准(如ICD、DSM、NINCDS/ADRDA、NINDS/AIREN、CCMD)诊断为阿尔茨海默病(Alzheimer’s disease,AD)、血管性痴呆(vascular dementia,VD)、混合性痴呆;排除标准:①非人类研究;②综述、报告类以及未完整发表的研究;③重复发表、重复收录的研究;④合并其他促认知药物;⑤非安慰剂对照;⑥无对照人群研究等。
2.检索相关文献
系统而全面地收集与研究问题相关的文献是系统评价有别于传统文献综述的重要特征之一,是完成一篇高质量系统综述的基础。在上一步我们就已经制定了文献检索策略(search strategy),即通过分析研究问题,将其分解为几个方面,写出相应的检索词,并确定检索词与检索词之间的逻辑组配关系。为保证系统评价的质量,应尽可能地查找一切与所研究的主题相关的文献。文献检索的完整性会直接影响研究结果的可靠性。文献检索时最好能找到所有有关的文献(包括未发表的),以减少发表偏倚对研究结果的影响。因此,必要时可以咨询专业图书馆员或信息检索人员,尽量避免漏检和误检。检索文献时可对检索时间段、文章发表的语种、出版年限、出版类型进行必要的限制。很多时候,文献的检索需要专业情报检索人员协助。
一般可通过计算机或手工文献检索进行资料收集。常用的英文医学数据库包括PubMed、EMBASE、ISI Web of Science、The Cochrane Library及EBSCO。常用的中文数据库包括中国期刊全文数据库、中国科技数据库、中国生物医学数据库及万方数据库等。有时需手工检索相关期刊与书籍,收集灰色文献(grey literature)(如与同事、专家、药厂联系获得未发表的文献;政府报告、会议专题论文、未发表的学位论文、个人通信等)。
首先,确定检索词,将英文检索词定为“ginkgo biloba”、“dementia”;中文检索词定为“银杏叶提取物”、“痴呆”。为防止漏检,同时使用关键词“GbE 761”或其商品名如“Tanakan,Tebonin,Rokan,Ginkoba”分别替换“银杏叶提取物”(“ginkgo biloba”)扩大检索范围。其次,在确定检索词后,需明确检索哪些数据库,以什么形式检索,手动检索还是计算机检索。通过计算机检索PubMed、EMBASE、the Cochrane Library、ISI Web of science、中国生物医学文献数据库、中国期刊全文数据库、中国科技期刊全文数据库和万方数据资源系统,并辅以文献追溯方法。最后,确定检索年限,对1982年1月至2012年9月公开发表的关于银杏叶提取物对痴呆治疗的文献进行收集。
3.纳入文献的筛选
检索到相关文献后,必须根据纳入和排除标准进行仔细筛选。由于收集的资料可能很多,可借助文献管理软件(如EndNote软件)进行文献筛选和管理工作。通常,研究的选择过程至少要求两名研究人员独立进行,如果有分歧可通过共同讨论决定是否纳入,必要时可由第三位研究者协助解决。
筛选文献一般分两步进行,首先进行初筛,通过浏览检索到文献的题目、摘要等信息可以剔除部分不合格文献。随后通过阅读全文,根据预先制订的纳入和排除标准,仔细甄别筛选,对于存在疑问的文献如经讨论仍无法统一意见,可先纳入,待联系原文作者获取相关信息后再作取舍。
在筛选过程中,为保证纳入文章的同质性(homogeneity)及可重复性(repeatability),不仅要重点关注前面提到PICOS模式的五个要点(研究对象、干预手段及对照、结局指标和研究设计),还要考虑文献的研究开展时间或文献发表的年代和语种、样本大小及随访年限、多重发表的处理及提供信息的完整性。
根据研究计划中指定的入排标准,对检索到的文献进行筛选,首先由两位研究者(JL,SL)独立通过文献的题目和摘要进行初筛,初筛后的文献通过阅读全文进行二次筛选,然后交叉核对筛选结果,如果有分歧则通过共同讨论决定是否纳入,必要时可由第三位研究者(LC)协助解决。如果文中信息不全或信息不清楚,与原始研究作者联系获取信息。并绘制具体检索和纳入流程图(图3-2)。
4.纳入文献的数据提取
资料提取(data extraction)是从符合纳入要求的文献中摘录用于系统评价的数据信息,所提取的信息必须是可靠、有效、无偏的。为保证数据收集的质量,在资料信息提取和计算机录入时应双人独立进行,核查过程中遇到不同之处应经过讨论决定。资料的提取至少应包括研究的文献来源(文章题目、第一作者、发表期刊、名称、发表年限)、研究的设计类型及方法学信息(如分组数、随机方法、盲法、样本量、研究场所等)、研究对象的基本特征(年龄、性别、种族、诊断标准、分期、病例来源等)、干预措施、结局或结果。对于一些纳入文献但原始数据提供不完整的情况,应直接与原作者联系,如仍无法得到原始数据,则应排除此文献。
图3-2 文献筛检流程图
对纳入的文献,应考虑采用哪些效应指标(effect size)进行合并,而合并的指标并非越多越好,而是看哪些指标具有代表性或临床意义重大,即主要结局指标(primary outcome)。通常两组间比较时,连续性变量(continuous variable)用加权均数差(weighted mean difference,WMD)、标准化均数差值(standardized mean differences,SMD)表示效应大小;二分类变量(dichotomous variable)用率差(rate difference,RD)、比数比(odds ratio,OR)、相对危险度(relative risk,RR)、相对危险度降低值(relative risk reduction,RRR)等表示效应的大小。
当文献筛选结束,则采用EndNote X5软件管理文献。制定数据提取表(data collection form)(表3-1),由两名研究者对资料进行提取并核对,资料提取包括:①一般资料:研究标题、第一作者、发表年份、平均年龄、性别构成、纳入/排除标准等;②研究方法:干预措施、基线情况、试验时间、入组人数、主要结局指标和次要结局指标等。又由于结局指标为量表评分等计量资料,因此效应指标选取标准化均数差值。
表3-1 纳入研究数据提取表
5.纳入研究的质量评价
我们前面讲过系统评价的质量评价,对纳入研究的质量评价非常重要。常常通过评价一个研究在设计、实施和分析中防止和减少系统误差(偏倚)和随机误差的程度,来评价其研究质量。并以此为依据在进行敏感性分析时给予不同的权重,用于考察和解释研究间的异质性及研究间结果的差异。
质量评价(quality assessment)一般包括三个方面内容:①方法学质量(methodological quality):研究设计和实施过程中避免或减少偏倚的程度;②精确度(accuracy):即随机误差的程度,一般用可信限的宽度表示;③外部真实性(external validity):研究结果外推的程度。国际上有很多质量评估的工具,目前广泛认可的是Cochrane协助网推荐的针对随机对照试验进行的偏倚风险评估标准,其具体内容包括:①随机分配方案的产生;②隐匿分组;③是否采用盲法;④不完整结果数据的报道;⑤选择性的结果报告;⑥其他影响真实性的潜在危险因素。我们对每篇随机对照试验进行偏倚风险评估时:“low risk”表示低偏倚风险;“high risk”表示高偏倚风险;“unclear risk”表示缺乏相关信息或偏倚情况不确定。
由两名独立的研究人员(JL,SL)根据Cochrane协作网推荐的偏倚风险评估方法对每篇RCT进行了偏倚风险评估。并进一步基于系统评价的结果,应用GRADE系统推荐分级方法评价证据质量,证据质量分级如下:①高质量:进一步研究不可能改变该疗效评估结果的可信度;②中等质量:进一步研究很可能影响该疗效评估结果的可信度,且可能改变该评估结果;③低质量:进一步研究极有可能影响该疗效评估结果的可信度,且该评估结果很可能改变;④极低质量:任何疗效评估结果都很不确定。最后,对偏倚风险评价结果进行编辑、分析和制图(表3-2)。
表3-2 文献偏倚风险评估表
6.资料的统计学处理——Meta分析
Meta分析(Meta-analysis)作为一种定量的系统评价(quantitative systematic review)的统计学方法,它通过定量合并的方式得到综合的结果估计。对各独立研究结果合并进行统计学分析的基础是假定各独立研究的结果是同质的,即各研究间现有结果的不同仅仅是由于抽样误差造成的。综合各独立研究的结果进行合并,理论上因为增大了样本含量,从而使随机误差减小。但如果各研究结果的差异不仅仅是由于抽样误差造成的,Meta分析有时就会导致错误的结论。因此,在对结果数据进行统计合并之前,应首先对其进行异质性检验。
进行异质性检验(heterogeneity test)时,异质性程度采用统计量 I 2表示效应值变异大小。若同时符合 I 2<50%和 P≥0.1时,纳入文献被认为是同质性,采用固定效应模型(fixed effect model)分析;反之说明研究间存在实际异质性,需要查找异质性的来源,之后采用随机效应模型(random effect model)分析。
通过对ADL量表得分的Meta分析,发现异质性较大, I 2=84%、 P<0.0001,因此采用随机效应模型,得到合并效应值SMD=-0.28、95%可信区间为[-0.51,-0.05](图3-3)。
图3-3 Meta分析结果森林图
知识点
Meta分析异质性的来源
Meta分析的异质性来源可从三方面分析:临床异质性、方法学异质性和统计学异质性。临床异质性是指:受试对象的不同、干预措施的差异和研究的终点指标不同所导致的变异。方法学异质性:由于试验设计和质量方面的差异引起的,如盲法的应用和分配隐藏的不同,或者由于试验过程中对结局的定义和测量方法的不一致而出现的变异。统计学异质性:干预效果的评价在不同试验研究间的差异波动(变异),是不同研究间临床和方法学上变异联合作用的结果。临床异质性、方法学异质性和统计学异质性三者可相互独立又可相互关联的,临床或方法学上的异质,不一定在统计学上就有异质性表现,反之亦然。
7.敏感性分析
敏感性分析(sensitivity analysis)主要是观察当选用不同模型、按研究质量评价标准从纳入文献中去除低质量文献、根据样本量大小对纳入研究进行分层分析、改变纳入和排除标准时,重新进行Meta分析,效应合并值点估计和区间估计的差异,考察结论有无变化,以保证Meta分析结果的稳健性。
作者对纳入研究进行敏感性分析,发现文献Napryeyenko 2007引起很大的异质性,剔除该文献后 I 2从91%降至0%,因此在Meta分析时剔除此文献,以增加结果的稳健性。有时候,可以采用亚组分析,图3-3中,按照年龄段分成两组(60~75组,>75组)分别进行Meta分析,此时,两组的异质性分别是43%和0%,而总体异质性 I 2是84%。
8.结果的分析和讨论
在进行一系列统计学合并分析后,应对所得结果作客观、科学、合理的解释,并写出相应的研究报告。在撰写研究报告时,应详细陈述分析的目的,文献查找方法及取舍标准,所综合的单个研究的特征;说明所应用的统计学方法;提供包含有各个研究统计结果的图表;结论可能遇到的偏倚及处理方法;讨论分析结果应用价值等。
系统评价的讨论部分是对评价结果的解释,其重点应当介绍有助于人们决策的几个方面:证据的强度、结果的可应用性、其他与决策有关的信息,干预措施的利弊,费用的权衡等。
将系统评价的结果应用到临床决策中,除了考虑方法学质量和报告质量外,还要考虑结果的临床重要性,包括纳入的是否为高质量的研究、结局指标是什么、结果是否精确以及合并效应量等内容。若纳入的是高质量的研究,且数量充足,各研究结果同质性较好,那么结果精确度就越好,证据的强度也较高。
根据Meta分析结果,发现银杏叶提取物与安慰剂在改善60岁至75岁之间痴呆患者的日常生活能力水平方面有统计学差异[ n=1281,4 RCT,SMD=-0.32,95%CI(-0.43,-0.21), P=0.00],而银杏叶提取物与安慰剂在改善75岁以上痴呆患者的日常生活能力水平方面无统计学差异[ n=636,2 RCT,SMD=0.00,95%CI(-0.16,0.16), P=1.00]。本研究结果证实了我们的假设:银杏叶提取物与安慰剂在改善60岁至75岁之间痴呆患者的认知功能和日常生活能力方面有统计学差异,而在改善75岁以上痴呆患者的认知功能和日常生活能力方面则无统计学差异。这对临床实践而言提供了较为明确和具体的客观数据。但限于纳入研究较少及9个研究的总体为偏低质量,故银杏叶提取物的有效性尚需大样本、长程的高质量随机对照临床试验进一步验证。而病例中患者72岁,因此可以用银杏叶提取物进行治疗。
以上就是制作一篇系统评价的完整过程简介,但在实际操作中,由于Meta分析的统计学方法较为复杂,因此在制作过程中,常常借助一些计算机软件来进行Meta分析和系统评价撰写。具体操作流程可以参考相应计算机软件的使用手册或相关书籍,我们同样以本章开头的病例为例,在附录中给出了Cochrane协作网推荐的review manager软件(RevMan)的操作流程。
知识点
常用的系统评价/Meta分析软件
1.RevMan RevMan(review manager)是Cochrane协作网提供的一款免费软件,在Cochrane协作组织的官方网站可免费下载。目前最新版本为RevMan5.2。由于Cochrane协作网的影响和免费的特点,其应用较多。
2.CMA CMA(comprehensive meta-analysis)是一款商业软件,其输出的森林图可以自定义编辑,并可输出为ppt和doc格式文件,是目前应用较广的Meta分析软件。
3.Meta Win 商业软件,由美国Sinauer Associates公司经销,带有效应计量计算器。近年应用较少。
4.Meta-Disc Meta-Disc(meta-analysis of diagnostic and screening tests),免费软件。界面友好,可进行异质性检验、线性回归和诊断试验的Meta分析,图形质量较高。
5.R R软件是国际通用的免费统计软件。它是一套完整的数据处理、计算和绘图软件系统,通过Meta分析扩展包,不仅可以完成经典的Meta分析功能,一些新近出现的如网络Meta分析等,也可以在R中实现。目前用得越来越多。
6.通用统计软件中的Meta分析模块STATA、SAS和基于Bayes方法的BUGS等统计软件都嵌入了Meta分析的模块,但是从界面、方便程度、灵活性、输出图形等方面不及上述软件。