统计学关我什么事:生活中的极简统计学
上QQ阅读APP看书,第一时间看更新

2-1 计算罹患癌症的概率

本讲是通过一些容易获取客观数据的案例,对于贝叶斯推理进行说明。需要了解的重点是,理解“如果从客观的数据来考虑的话,反而会容易陷入误解之中”的问题。在这里,你会发现概率的不可思议。

下面,用医疗诊查来举例进行说明。

在医疗发达的当今社会,我们能够获得多数病症的统计数据。另外,在发觉自己出现了一定症状之前,就能够发现病情的技术也在不断发展进步。但是,依然存在一个问题:如何判断通过检查得出的“是/不是X病情”这一结果的准确性呢?

假设,你接受了一项“如果患了特定的癌症的话,结果有95%的概率为阳性的检查”,并且在之后收到了结果为阳性的报告。此时,你会判断自己患该癌症的概率为95%吗?

答案是“不会”。

如果“自己患癌症的概率真的为95%”的话,你肯定会对这个结果感到非常悲观。实际上,对此做出错误判断的人大概有很多吧。但是,从“阳性”这个结果来推断“你患了癌症的概率”,这也并不是一个特别高的数字。

在该推算中,由于是从“阳性”这一“结果”追溯到“患癌症”这一“原因”,因此可看作贝叶斯推理的典型案例。

在本讲中,我们首先进行问题的设定。以下数据是为了简化计算而假设的虚构数值,并非真实的数据。

问题设定

假设,某种特定的癌症的患病率为0.1%(0.001)。有一个简易的方法能够检查出是否患上这种癌症:患上这种癌症的人中有95%(0.95)的概率被诊断为阳性。但另一方面,健康人群也有2%(0.02)的可能性被误诊为阳性。那么,如果在这个检查中被诊断为阳性的时候,实际患上这种癌症的概率为多少呢?

2-2 根据医疗数据,设定“先验概率”

该推算的顺序,与第一讲中进行的推算顺序完全相同。因为具体事例有所区别,带给各位读者的印象可能会不太一样,因此,下文将沿袭第一讲的方式,对推算的顺序进行详细说明。

这个例子的特殊性在于,先验概率是一项客观存在的流行病学数据。第一讲中已经解释过,先验概率,是“在获得信息之前,各个类别的存在概率”。在这个案例中共有两种类别:一种是“罹患癌症的人”,另一种是“健康的人”。

正如问题设定中所述,这种癌症的罹患率为0.001,因此流行病学认为,1000人中有1人会罹患这种癌症。因此,如果要在检查前推测自己是否罹患这种癌症的话,如下面的图表2-1所示。

图表2-1 根据癌症罹患率得出的先验分布

下面,重新解释一遍该图。

该图表示的是:在接受简易检查诊断之前,判断你是否罹患了癌症的可能性。你所在的世界分为左侧表示“罹患癌症”和右侧表示“身体健康”的两个“可能世界”,而你一定处在这两个可能世界中的一个当中。所以并不知道到底属于哪一个世界,仅仅是作为推测而已。也就是说,世界分为了两个互不相同的部分(可能性分为了两种)

但是,并非完全没有办法来推测你究竟处在哪个“可能世界”。通过流行病学数据我们知道,这种癌症的罹患率为0.001。也就是说,统计显示,1000人中有1人罹患这种癌症,所以,这可以作为判断你是否罹患该种癌症的参考。如果直接套用的话,可以推算罹患该种癌症的概率为0.001。也就是说,“你究竟属于两个可能世界中的哪一个”的问题,在没有任何个人信息的情况下,属于左侧世界的概率可被推算为0.001,属于右侧世界的概率可被推算为0.999