统计学关我什么事:生活中的极简统计学
上QQ阅读APP看书,第一时间看更新

2-3 以检查准确率为线索,设定“条件概率”

下一步就是设置为不同类别带来特定信息的条件概率本例中的信息是指检查结果所呈现出的阳性及阴性。正如第一讲中所述,这一过程离不开客观数据的支撑。在本例中,就使用了与简易检查相关的客观数据。(图表2-2)

图表2-2 检查准确率的条件概率

横向阅读这张图表可知:上面一行是癌症患者的情况,检查结果呈阳性的概率为0.95。也就是说,查出患者得了癌症的概率为95%。那么误诊的概率便是1-0.95=0.05了。这表明,每接受检查100人中,其中5人,即使身患癌症,诊断出来的结果也是阴性。

下面一行是健康者的情况,误诊为阳性的概率为2%。因此,准确诊断为阴性的概率就是1-0.02=0.98。

从上面的图表,我们可以得知,简易检查并不是那么完善,它存在着误诊的风险。所谓的风险包含了:“身患癌症,却诊断为健康”和“很健康,却误诊为癌症”这两种情况。

这种概率,就是先前讲过的,在限定类别场合下的各个检查结果的条件概率。把各个类别作为检查结果的“原因”来看待的话,如果明确了原因(身患癌症或是健康),就可以知道结果(阳性或阴性)的概率。

上一节中共分了两个大类,根据具体信息,每个大类又被分成了两小类,如图表2-3所示。

图表2-3 四种互不相同的可能性

图表2-3所示,你的身体内部存在四种可能性。患癌并呈现阳性(左上区域),患癌并呈现阴性(左下区域),健康状态下的阳性(右上区域)和健康状态下的阴性(右下区域)四种情况。

并且,根据各区域所表示的概率,用乘法计算,得到图表2-4

图表2-4 四种互不相同的可能性各自的概率

2-4 检查结果呈阳性,因而排除掉“不可能的情况”

此刻,你已经了解到自己的检查结果呈阳性。而这件事又可以这么理解:你获取一项关于自己身体内部状况的信息,也就为“可能性世界”增添了新的信息。

在现实世界中,因为观察到了“阳性”这一结果,“阴性”这一结果便可以排除了。用图形表示,如图表2-5所示。

图表2-5 获得信息之后,可能性受到限定

2-5 计算罹患癌症的“贝叶斯逆概率”

在上一节中,因为观察到“阳性”这一诊断结果,因此,可能世界被限定为2个。也就是说,你所处的世界或是“癌症&阳性”的世界,或是“健康&阳性”的世界,只有这两种可能性。

对检查结果的观察,使得可能性从4种减少到2种。这样,概率相加之和(长方形的面积)无法为1。因此,为了恢复标准化条件,需要在保持比例关系的前提下,使“相加之和等于1”,具体如图表2-6所示。

(左边长方形的面积):(右边长方形的面积)=0.095∶1.998

图表2-6 根据标准化条件,计算后验概率

0.095+1.998=2.093,用这个数值来分割比率的两侧的话,可以满足标准化条件(相加之和等于1)。

如图所示,将长方形的面积标准化处理,则为0.0454和0.9546(四舍五入,保留小数点后第四位)。请确认相加之和为1。

从这个结果可以得知,在得知“阳性”这一检查结果的情况下,罹患这种癌症的概率为4.5%左右,这便是后验概率(贝叶斯后验概率)。