因果推断:原理解析与应用实践
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.2 因果关系

与相关关系对比,因果关系区分了原因变量和结果变量。借助自然科学研究的思路来定义因果关系,即假设存在两个目标变量XY,在控制能影响Y的一切其他变量保持不变的同时,改变X的状态,观察Y是否随之发生改变。如果Y发生了改变,那么称XY的原因,YX的结果,XY之间具有因果关系。因果关系在揭示事物发生机制、指导干预行为等方面有着相关关系不能替代的重要作用,可以帮助理解很多复杂的现实场景,也一直是人类认识世界的基本方式和现代科学的基石。

中西方对因果关系的理解、探索和研究都有着悠久的历史。从古希腊开始,西方的哲学家就热衷于因果关系的讨论,并一直延续至今。爱因斯坦曾认为,西方科学的发展以两个伟大的成就为基础:一是希腊哲学家发明的形式逻辑体系;二是始于文艺复兴时期的通过系统的试验寻找因果关系[3]。对因果关系的定义和研究也划分为了不同的学派。例如,以David Hume(大卫·休谟)为代表的实证主义,他强调了推断原因的3个条件:①假定的原因和结果之间的连续性;②原因必须在时间上先于结果;③结果伴随着原因发生。然而,他也强调原因不能被直接证明[4]。本质主义则认为研究因果关系需要选择微观层次,在此层次上,因果关系必然发生。然而,在研究最终原因时,在微观层次上并不要求一个原因必须在时间上先于它的结果,相反地,要求这两个变量同时相关,如果此条件不成立,那么其他变量可能在因果间隔期间导致了结果的发生[5]。此外,以因果命题为角度,证实主义与证伪主义也相继被提出,认为不能仅追求证实,而要通过寻求证伪来进行因果关系的理论预测,即同时需要进行多次测试来确定一个因果命题是否经受住了证伪[5]。在中国,无论古代文学作品《天问》中的“天地万象之理”,还是佛教中的因果循环理论,都体现了对探索因果关系的热情与向往。在近代,中国受到了西方哲学的影响,中国学者逐渐开始将因果关系与科学建立联系,如洪谦先生关于“现代物理学中的因果性问题”的研究,金岳霖先生也对大卫·休谟的哲学有独到的见解[6]

大部分哲学家都认为因果关系是一条本质的、似乎毋庸置疑的定律。在现实诸多自然科学和社会科学的研究中,常常面临“导致”“由……引发”“证明”“该不该”等问题,都需要首先在科学的范围内找到明确表述这些与因果关系密切相关问题的方式,进而科学合理地回答相关问题。但正是受大卫·休谟提出的原因不能被直接证明等的影响,使得在很长一段时间内,因果关系推断的数学化步履维艰。

幸运的是,20世纪统计学的几项辉煌成果使统计因果推断语言得以发展,将模糊的概念转变为一个具有明确语义和逻辑基础的数学对象,给出了因果关系新的思考方式与推理框架,并深入影响和应用到了诸多重要学科领域,如经济学、社会学、政治科学、教育学、流行病学、计算机科学等。1923年,Jerzy Neyman(耶日·内曼)最先提出了潜在结果(Potential Outcomes)的数学模型,成功数学化了随机对照试验中的因果推断,并将它与统计因果推断结合起来,但是,其并未真正用于观察性研究[7]。20世纪70年代,Donald Bruce Rubin(唐纳德·鲁宾)在此基础上提出观察性研究也对应着一个假想的随机对照试验,进一步完善的潜在结果框架为后续统计因果推断提供了有力支撑[8]。这类方法的统计理论比较完善,推断结果比较准确,已成为现今因果推断的主流方法之一。当然,此类方法也存在一定的局限性,即它仅能估计一对变量之间的直接作用效应,不能估计间接影响的链路和众多变量之间的复杂关系。20世纪90年代,Judea Pearl(朱迪亚·珀尔)深入研究了描述数据生成机制的重要工具:因果图,并在此基础上提出因果推断的一个新范式:结构因果模型[9]。他指出,在利用因果图识别因果关系时,如果满足后门准则(Backdoor Criterion)和前门准则(Frontdoor Criterion),那么不需要观测到所有的变量也可以识别因果关系。结构因果模型同样是现今因果推断的重要方法。需要补充说明的是,结构因果模型和潜在结果模型存在密切关联,且在一定条件下被证明是等价的[3]

除统计因果推断外,另一个重要的研究分支是:结合观测时间序列数据,在物理学的知识体系下,度量变量之间动力学关系的动力学因果推断方法。目前,该研究分支也已在生态学、脑科学、人工智能、精准医疗等多个学科领域中得到了充分的应用。综合多种动力学因果推断的理论框架和检测算法,Clive Granger(克莱夫·格兰杰)于20世纪70年代创立了格兰杰因果关系检验方法[10]。该方法基于概率形式给出了因果关系检验公式,论证了事件发生是否存在先后的显著性。因为该方法在经济学数据中的广泛应用,他因此获得2003年的诺贝尔奖。但事实上,后人证明格兰杰因果关系检验方法只能判断发生事件在时间上的先后是否有统计显著性,并不能判断因果关系。收敛交叉映射方法[11]通过对变量进行状态空间重构来获取变量的历史信息,估计性能随着时间是否具有收敛的性质,进而判断因果关系的存在性。收敛交叉映射方法对识别可能的因果关系、辨别因果方向和在存在伪相关关系的复杂系统中识别因果关系均有极大的推动作用。

总之,当前对因果关系的科学定义存在多种不同的方式,对应的检验和度量方法体系正逐渐发展。来自统计学、经济学、社会学、流行病学、计算机科学、哲学等众多领域的学者正在齐头并进,相互借鉴,共同探索因果推断的未来。因果推断的研究迎来了发展的黄金时代。