4-2 将“概率的概率”设置为“先验概率”
首先,关键的一点在于类别的设置。在本案例中,我们需要设置的类别是“该夫妇所生的孩子为女孩的概率”,我们用p来记录这一概率。
有的读者可能会条件反射般地认为“概率p难道不应该是0.5吗?”关于这一点,在上节中已经讲过,在统计人类这一整体时,可以认为生男生女出的概率比为1∶1(或近似1∶1),但具体到某一对特定夫妇身上的话,就未必是这个结果了。
因此,“该夫妇所生的孩子为女孩的概率”p,可以是0到1之间的任意自然数。此时,用于表示该夫妇类别的p的取值范围为0≤p≤1,可取的数值有无限个,并且连续分布。据此可以设置类别p,并进行贝叶斯推理,这项工作的难度较大,具体将在第19讲中解说,本节仅做简要说明。
简单来说,可以设置3个p的值,分别为0.6、0.5、0.4。当然了,只要满足条件0≤p≤1的值都可以选取,并且这样做更加符合常理,而本讲为了让大家理解贝叶斯推理的特质,需要首先保证易于理解的问题,因此,只选取三个数值进行探讨。
现在我们已经将“该夫妇所生的孩子为女孩的概率”p设置为0.6、0.5、0.4这三种可能,那么该夫妇一定属于这三种中的一种。也就是说,当p=0.6时,该夫妇生女孩的概率为0.6,当p=0.4时,该夫妇生女孩的概率为0.4。其中,前者说明“该夫妇比较容易生女孩”,后者说明“该夫妇比较容易生男孩”。当然,如果p=0.5,那么说明“该夫妇生男生女的概率相等,各为0.5”。
下一步要做的与以往相同,就是为这三种类别分别设置先验概率。
在这种情况下,想要判断该夫妇究竟属于哪一个类别,是完全没有任何统计数据来支持的,因此依然采用上一讲中的“理由不充分原理”。如图表4-1所示,设置这三种类别的概率各为1/3。
图表4-1 根据理由不充分原理设置的先验概率
读到这里,作为初学者来说难以理解的一点是:为何设置“p=0.4的先验概率”的概率为1/3?可以这样理解:p本身就是一个概率,那么,“p=0.4的先验概率”的概率为1/3,便是“概率的概率”。对于这中思维方式,如果不习惯的话,确实会感到混乱。
理解时的关键是,p代表“生女孩”的概率,而先验概率1/3代表:三种类别的概率p的值,究竟哪一个才是真实的可能性。
换言之,先验概率表示:该夫妇属于哪一个可能世界的概率;概率p表示:该夫妇在各个可能世界中生女孩的概率。也就是说,这两个概率,是不同意义的。
上一讲的观点认为,类别(互不相同的可能世界)与概率是毫无关系的,而本讲中的类别则是通过概率p来表示的。也就是说,该夫妇“生女孩的概率”究竟为0.4?还是0.5?或是0.6?我们无从得知,只能进行推测罢了。于是,运用“理由不充分原理”,将每种情况的先验概率均设置为1/3。
对了,由于从统计学的观点来看待人类整体生男生女的概率问题时,p=0.5的可能性要远高于其他两种情况,那么,在设置先验分布时,也可以进行适当调整。例如,可以将“生女孩的概率为0.4”和“生女孩的概率为0.6”这两种情况的先验概率均设置为0.2,而“生女孩的概率为0.5”的先验概率则设置为0.6。(关于这一点,可在习题部分进行计算练习)
关于先验概率的设置,有一点与之前的内容略有不同:之前都是设置两个类别,而这次设置了三个类别。如果能够顺利理解本讲内容,那么今后即使设置再多的类别,应该也都不成问题了。