牛津通识课:概率
上QQ阅读APP看书,第一时间看更新

01 基本原理 Fundamentals

概率的视角

概率是不确定性这一概念的形式化表述。误打误撞效应显然到处都是。从生物学上说,我们都是父母基因随机混合后的产物。像是石油泄漏、火山喷发、海啸、地震等灾害,或是中彩票这样令人愉悦的事情,都会随机且显著地影响人们的生活。

许多人具有良好的理解概率的直觉,但在你对某件事情有了某种先入为主的观点,而后来一些具有不完全明显的相关性的新事实被披露出来的时候,这种理解就会让你误入歧途。的确有一些臭名昭著的有关生日、二孩家庭、有三个选择的电视节目游戏的“诡计问题”(trick questions),它们似乎被设计成说服你这门学科是有违常识的。其实概率并不违背常识,只要清除掉或者考虑到这些问题中所有隐藏的假设,合理的答案就会浮出水面。只不过概率的确需要清楚的思维过程。

概率的广泛应用促进了这门学科概念和方法的发展。1944年6月的诺曼底登陆[1]能够发生,就是因为当时人们认为有利天气出现的概率相对较高。荷兰的工程师们在建造保护其国家免受海洋侵袭的堤岸时,必须考虑发生严重洪水的概率。一种新型治疗方法是否比先前的方法更能帮助一名患者多生存五年?你需要交多少钱来给自己、车辆、房子或财产上保险取决于早期索赔的可能性。你所做的大多数决定:在学校学习什么、选择谁作为人生伴侣、在哪里居住、从事什么工作都是在有不确定性的情况下进行的。就像皮埃尔-西蒙·拉普拉斯(Pierre-Simon Laplace)在1814年所说的那样:

……生命中最重要的问题大多都只是概率问题。

“概率是……”这样的措辞无论何时出现,都伴随着某些假设(它们可能在不经意间被忽略了)。如果那些假设是无端的,那么这些断言就不会被人相信。我希望在这本书中假设是明确的,无论它们是含蓄还是直白。在我们将目光转向概率的种种阐述能如何被诠释之前,先描述一下产生这些阐述的不同思路。古典概率

概率的古典(classical)或者说客观(objective)视角经常出现在有关概率的游戏中,例如掷色子和转轮盘赌。这些过程都会产生一系列可能的结果,我们出于对称性的考虑,或者因为找不到是其中一个结果而不是另一个更会发生的原因,认为它们都是等可能的。所以我们只是对结果进行计数,并赋予它们相等的概率,这样试验中的任何事件的概率都被认为是引发它的结果占所有结果的比率。

例如,连掷两次硬币,四种可能的正反面结果是:正正、正反、反正、反反。就一枚公正的硬币来说,每次掷出正或反都是等可能的,所以四个结果中没有一个比另一个更可能或更不可能,每一个结果的概率都应该是1/4。其中有三个至少一次掷出正面,所以总体上讲正面出现的概率是3/4。

从一个牌堆中取两张扑克牌,有1326种结果(请相信我的话)。如果牌堆是被洗好了的,我们就认为这些扑克牌组合都是等可能的。因为其中有64种牌面由一张A和一张“十牌”(即10、J、Q或K[2])组成,所以我们得出结论,抽到这样的组合——“二十一点(Blackjack)”——的概率是64/1326,刚好不到5%。

仅从概率的角度而言,这些例子都可以转化为从装有完全相同的球的袋子中取出某个球的形式。第一个例子对应的袋子中装有4个球,3个是红球;第二个例子对应的袋子中装有1326个球,其中64个是红球。的确,每一个对概率的客观考量的例子本质上都与从袋子或者瓮中取出一个球的问题完全相同(这就解释了学生们教材中这类例子过多的原因)。

我要强调的是,仅仅计算可能结果的数量然后计算多少个结果会引发相应的事件是不够的。一定要有令人信服的理由说明任何结果都不会比其他的更可能或更不可能发生。否则,基于彩票只有两个可能的结果:要么中奖,要么不中,你会掉入买彩票中大奖概率是50%的思维陷阱中!

试验证据——频率

我们希望在“大富翁”这类家庭游戏或者例如双色子赌博的赌场游戏中,色子的六个面中掷出每一个都是等可能的。但如果色子由不均匀的材料制成,或者它的长度、宽度和高度三者不相同,那么假定每种结果是等可能的显然不明智。在相同条件下进行的一系列投掷过程中,出现任何一个面的频率都会波动,但最终将会稳定并趋近于一个特定值。

不可能出现前1000次投掷中20%的结果是6点,而接下来的1000次投掷中这个比例跳到了60%。在这些可重复试验中,结果可能是不完全一样的,但是每一个结果都倾向于表现出某个特定的频率,频率论者(frequentist)认为这个频率值就是相应结果的概率。

对于一个不完美的色子,在前1000次投掷中,我们可能会得到170次6点,下1000次中,可能得到181次6点,诸如此类。我们不能从这些试验中推断出掷出6点的概率精确值,但是试验数据指导我们对概率进行估计,我们收集的试验数据越多,我们估计得就越准确。我们无法知道概率的精确值,但这一事实并不能否认概率的存在。

如果我从洗好的牌堆中抽取一张牌,似乎没有理由认为某种花色比其他花色更容易被抽到。每种花色都有1/4的客观概率。而且如果我放回这张牌,重新洗牌,然后再进行100次试验,我会预期每种花色的出现是同样的频繁,就是大约25次。类似地,对于投掷结果都是等可能的普通色子,投掷结果是5点的概率客观地讲是1/6。在600次投掷中,我们预期掷出5点的次数大约为100次。

在重复大量具有等可能性结果的试验时,任何特定结果相应的频率都预期会接近于它客观计算的概率。一个公正的硬币极少会在100次投掷中给出50次正面朝上的结果,但是直觉上我们不知道该期望投掷结果多么接近理想情况才合理。

频率观点不仅被应用于同样条件下的重复性试验,还有在即将出生的婴儿是男是女上。不考虑家庭因素,我们来看看从许多国家和文化环境中收集的覆盖了很长时间跨度的数据。一个持续的模式是:每49个女婴出生,就有51个男婴出生。鉴于无法将某个新生儿和其余的进行区分,一个频率论者会认为生男孩的概率是51%。

一些规模惊人的试验已经开展了。1894年,动物学家拉斐尔·韦尔登(Raphael Weldon)发表了将12个色子投掷2600次的结果。他的数据与六个面等可能出现的观点相抵触,因为5和6这两个数字出现得太频繁。为了辨认数字,他的色子上每个面钻了小孔,刻有5和6的面分别对着刻有1和2的面。这些色子的重心就会更接近数字较小的面,这给出了一个对观察结果中频率过大貌似正确的解释。

大约70年后,一个有大量时间的一丝不苟的人——威拉德·朗克尔(Willard Longcor)在哈佛大学顶尖的统计学家弗雷德里克·莫斯特勒(Frederick Mosteller)手下效力。在莫斯特勒的指导下,朗克尔收集了超过200个色子,并将它们中的每一个都投掷了超过20 000次,只记录结果的奇偶性——得到超过400万个数据。为了让每次投掷的环境尽可能相同,他使用了一个铺了毯子的桌面,用一个升起来的台阶将色子弹下去。那些类似韦尔登使用的廉价色子存在微小但明显的偏差,以至于出现了太多的偶数,这并不出人意料,也是那些钻孔的原因。而对于那些使用在拉斯维加斯赌场的高精度色子,上面表示数字的点不是轻轻画上去的就是极薄的圆盘贴上去的,就没有可检测到的偏差。这些色子各种结果的频率与在古典视角下等可能结果的概率是一致的。

“二十一点”专家皮特·格里芬(Peter Griffin)挖苦地说,他在拉斯维加斯玩的1820局牌中,庄家牌堆顶上要么是十牌,要么是A的情况出现了770次。而抽到这些对庄家有利的牌的客观概率是5/13,所以格里芬怀疑自己是否被欺骗了——随机概率只会让发牌者抽到这种好牌大约700次。

2002年3月,马拉维有6202名五岁以下的儿童被认为疑似患上了肺炎,其中523名儿童死亡,死亡率为8.4%。已知没有某些特殊情况让这段时期不同于以往,一个频率论者就会推断:一名患上肺炎的马拉维儿童的死亡率是8%~9%。从客观角度来说,关于马拉维患有肺炎的儿童的死亡率的一般性陈述仍是一种推测,尽管基于这样确凿的证据:如果随机从那些特定的6202名儿童中选择一名,他的死亡概率是8.4%。

我们将会在后面更深入地讨论频率数据和客观概率的关系。

主观诠释

布鲁诺·德·菲内蒂(Bruno de Finetti)是概率这个领域中最有影响力的思想者之一,他曾写过:

概率不存在。

作为概率理论方面的教授,他并不是在将自己研究的学科比作海市蜃楼,而是在驳斥例如“正面朝上的概率是1/2”这种绝对性的陈述。对于他来说,每一个包含概率的陈述都是观点的表达,这种表达基于一个人自己的经验和知识,并且有可能在更多的信息被发现的时候发生变化。

考虑如下五个断言:

英国板球队队长会在下一次国际板球对抗赛猜对硬币;

奥斯卡金像奖最佳男主角奖获得者,无论是谁,都会在下一年再次获奖;

没有奥斯陆出生的人曾经获得过奥运会击剑金牌;

理查三世(Richard III)应该对“塔中王子[3]”的死负责;

如果拉尔夫·纳德(Ralph Nader)没有成为候选人,阿尔·戈尔(Al Gore)本会在2000年被选为美国总统。

对于这其中的每一个推断,我们都能够给出自己的可信度(degree of believe)、个人概率

(personal probability)或者主观概率(subjective probability)。这将会是一些非负数,并且不大于1,就是说它是一个介于0%和100%(含)之间的百分比。

0和1分别代表着两个极端——不可能必然。我确信在本世纪内足球世界杯必然会再次由非洲国家举办。我认为年龄小于20岁的人不可能获得诺贝尔物理学奖[4]

评估主观概率

上面的五个断言各具有不同的性质,关于它们我们有多种不同的佐证。对第一个断言来说,我们能用正面和反面的对称性加以反驳;对第二个断言来说,我们可以参考1929年以来的奥斯卡奖历史记录,前两个情形都能在很短时间内确定其真实与否;第三个断言,无论是真是假,都可以通过盘点奥运会获奖记录来确定;第四个或真或假,但我们永远都无法确定;我们不能让历史重来去探明第五个断言是真是假。

后面会有一些具体的例子来阐释主观概率是如何被评估的。除了这些观点之外,有至少三个一般性评估主观概率的不同方法。一个就是做出一个事件发生与否的合理赌注。但是这个方法不总是对每个人有用:有些人原则上抵制赌博,还有一些人不考虑进行可能导致个人损失的行为。而且对于那些愿意赌博的人来说,他们的合理赌注也可能会随着他们站在打赌双方的哪一边而变化。

第二个评估某件事可信度的方法就显得有些刻意了。你会选以下哪一个:猜某一个事件是否发生,或者猜牌堆顶上第一张牌的颜色是红色还是黑色,猜对了获得5英镑。如果你更喜欢后者,就说明你认为此事件的可信度在50%以下。

假设我们继续比较如下两种情况的预期,这个事件是否发生,还是猜第一张牌的花色,猜对获得5英镑。后者有25%的可能会发生,所以你对这两种情况的选择,会反映你认为这个事件的可信度是比25%低,还是在25%到50%之间。

更加精细地比较这些数值会让我们无法确定更偏好哪一边。你对这件事的可信度就会接近于那个选牌的客观概率。你也许会想要使用装有20或者100个完全一样的球的罐子来明确地评估这个事件的可信度,而不是计算分数很困难的有52张牌的牌堆。

这里给出一些具有合适精确度的结果。2010年,网球运动员约翰·伊斯内尔(John Isner)和尼古拉斯·马胡(Nicolas Mahut)进行了温布尔登网球锦标赛[5]史上最长的比赛。经过计算,他们在下一年再次成为对手(这的确发生了)的精确概率是2/285,或许应该四舍五入到“略低于1%”。但是《星际迷航》 [6]的一集中,史波克先生(Mr. Spock)告诉柯克(Kirk)他们逃脱的胜算“大约是7824.7比1”,这就很荒谬了。

第三种方法,想一笔金额大小合适的钱,别太少以至于对你来说无关紧要(比如一便士),也别太多以至于拥有了它就会对你的境遇产生巨大的影响(对大多数人来说是100万,对于比尔·盖茨就要数额大一些了)。我觉得10英镑就行——把它叫作单位金额。

现在假设,不知何故某个事件的真实与否会在明天揭晓:并且如果这个事件是真实的你会获得这个单位金额,如果它是假的就什么也得不到。但有一种提议是:不用等到明天,今天你会获得单位金额中确定比例p的一部分,但对你来说今天或者明天得到这笔钱没有什么差别。

如果p特别小,你可能就会拒绝这个提议,并且更愿意等待;如果p接近于单位1,你可能会接受提议中这个确定比例的金额。但是中间会存在一个p的值让你在接受这个提议与等待明天结果被揭晓中摇摆不定。这个p就是你认为这个陈述或者事件的可信度。

这里我提供我自己的对上述五种断言的主观答案。我认为没有合理的原因来解释为什么一方比另一方更可能在板球掷硬币中获胜,所以给出的第一个数字是50%;浏览奥斯卡奖的历史,不仅是演员奖,其他类别的奖项也只是零星地在相邻年份中重复颁发——可能现在参选人更多了,所以我给出3%,或者更低;挪威人不以善于击剑著称,但是重剑、花剑、佩剑这些击剑项目自1896年以来一直出现在所有的夏季奥运会中,一些奥斯陆出生的人也许曾经在某次获得过金牌,但是我很怀疑——这里我给出的数字大约是95%;出于对白玫瑰郡[7]的偏爱,而不是客观证据,对于第四个断言我给出10%;对于第五个断言,考虑到每一个州的投票情况和纳德获得的貌似合理的票数,我给出20%。

在这儿停一下,给出你们自己对这五个断言的意见。在事情不确定的时候,你越善于评估概率,你在生活中做的决定就越可能让你开心。

赔率

无论我们使用古典概型、频率诠释还是可信度,赔率(odds)这个词语在描述概率的时候经常出现。我们可能会说用公正的色子掷出6的赔率是“1赔5”——在一系列投掷中,每一次我们掷出6,预期都会有五次掷不出。如果一个结果预期比它的反面更有可能发生,例如排名更高的网球选手获得比赛的胜利,那这个结果就被叫作有胜算的(odds on)。

概率和赔率之间有确定的对应关系,我们能够简单地将其相互转换。思考一下频率将会很有帮助。如果概率是20%,或者说1/5,我们预期这个事件在五次机会中发生一次,所以赔率是“1赔4”。如果概率是75%,我们预期它会在四次中发生三次,给出“3赔1”的赔率。如果赔率是“5赔6”,这就表明每五次事件发生,就会有六次事件不发生,所以概率是5/11。

你不必拘泥于数字。在洗好的牌堆顶上的牌是K或者Q的概率是2/13。这可以被表述为“2赔11”,或者同样精确的“1赔5.5”。喜欢哪个就用哪个。

虽然短语“赔率是1赔1”从来不被使用,但是它很有含义。它表明期望一个事件发生和不发生的机会是五五开,所以它的概率是1/2。然而,我们会板着脸说“赔率是均衡的”。

需要解决的问题

对于如何使用概率,我们没有重大的分歧,但是我们曾经讨论过的三种方法的信徒们可能会从不同的角度分别论述它们的价值。每一个观点都有其用途。为了理解这门学科的运作方式,无论从哪个思路我们都要探寻适当的观点。

客观方法被限制于有限多个结果的情况,所有的这些结果都被判断为等可能的。但是没有硬币或者色子是完美地对称的,基于什么我们可以把这些不完美当作无关紧要的元素而不去考虑它们呢?甚至于我们能否确定可能结果的数量呢?例如假设我们有一个装有两个球的罐子,这两个球要么均为白色,要么均为黑色,要么一白一黑。我们是否可以说有3种等可能的情况,或者球在按顺序被置入的时候,实际上是白白、白黑、黑白或者黑黑这4种等可能情况?持不同看法的人会对两个球均为黑球的概率给出不同的答案。或者假设你到达了一条分出三条岔路的路口,两条路通往新城,第三条路通往海港,做一个“随机选择”:你去往海港的概率是1/3(三个出口中的一个)还是1/2(两个目的地中的一个)?

一个频率论者希望处理可重复试验,它在完全相同的情况下能够不限次数地进行。试验结果的数量不需要是有限的——想想掷同一枚硬币直到正面连续出现3次,或者在一根棍子上取一个随机的点。但是,无论我们多么小心,试验环境都不会保持绝对一致,而且任何极限值都只能做估计。怎样描述这种估计中的误差?宣称误差在2%以下的概率是99%,就会引入循环论证——我们需要知道概率是多少,以便定义它!

一个国家入侵另一个国家的概率,或者特定的一次心脏移植成功的概率,这类问题中的情形只出现一次,而且备选结果不能被减少为有限列表中的等可能的结果。客观和频率方法对这些事件都无能为力。这就需要主观概率了。

主观主义者必须确保她相信的事情都是自洽的。例如,在英国国家彩票[8]中,一个机器从列表{1, 2, 3,…, 49}中选取6个数字,苏西也许会倾向于认为约1400万种选择均是等可能的。那么,当问到下面哪一个更有可能的时候:

(a)抽取的数字中没有超过44的;

(b)那些抽取到的数字中不包括连续数字。

她或许会在想了一会儿之后选择二者中的某一个。但是只要她选择了这些事件中的任何一个,她都会因为自己的观点不能自洽而愧疚,因为合理的计算显示这两个事件发生的可能性正好是相等的!对于这种不自洽性,主观概率方法仅仅要求它被解决,但是并未给出确切的解决方式。

因为相比具有有限多种等可能选择的情形,我们希望考虑更宽泛的情况,在考虑不能不限次数地重复试验的情况时,我们将主观概率方法作为默认选项。而且一旦有客观或者频率方法的支持,我们将会更加坚信我们的观点。

解读

借用“袋子中的球”的视角,一些事件的概率被当作是袋子中红色球的比例。所以仅当袋子中没有红色球的时候,概率的值才是0。在这种情况下,这个事件永远不会发生。类似地,概率为单位1对应着每一个球都是红色,所以这种情况下这个事件每次都会发生。只有0和单位1这些值,才可能确凿地被试验证据证明是错误的:如果事件发生了,它的概率就不可能是0;当它没有发生,它的概率就不可能是单位1。而且这从频率或者主观方法来说也是对的。假设概率是某些中间值,比如说3/4。

我们首先来处理一个十分细致的问题。无论一个轮盘赌轮被设计得多么好,从本质上讲所有标着数字的格子被转到的概率精确相同是不可能的。赌场需要的是这些概率足够接近理想情况,以至于不大可能分辨出任何数字的概率比其他数字更多或者更少。类似的说法也适用于色子、硬币和纸牌。所以类似于“概率是3/4”的说法,意味着对于所有实际目的来说概率都足够接近3/4。否则,一个书呆子就会沾沾自喜地告诉你,他知道概率不是3/4,并且不害怕引起争执。

在可重复试验的背景下,我们期望从这个断言中得到什么信息呢,“得到红球的概率是3/4”?值得强调的是,我们并不会期望如果进行4次这个试验(每次取球之后放回),我们会精确地在其中3次抽到红球。可能的情况是,4次重复试验根本没抽到红球,或者甚至每次都是红球。但是在一系列漫长的重复之后,我们的确期望红球出现的频率接近3/4。

漫长的重复试验有多长,或者结果需要多么接近3/4?没有一个确定的、非黑即白的答案。如果在前40次重复试验中,我们只有20次抽到红球,我会强烈质疑概率是3/4的断言,但是如果接下来的40次中得到28次红球的结果,那些质疑就会被削弱。相信或者不相信这个断言可能会在相当长的一段时间内是临时立场。假设试验条件的确一直保持不变,我们使用所有收集到的数据来做决定——试验次数过少会引起误导。

稍后我会提供一些准则,并且证明它们。我们以重复100次试验为例,假设概率是一个中间值,接近一半。计算这个数字与由数据得到的真实频率的差值:如果这个差值超过0.1,我会对这个断言产生一些怀疑;如果差值超过0.15,我会产生强烈质疑。在重复试验1000次而不是100次后,我期望结果有更强的一致性,所以用0.03和0.05代替原来的数字。如果假想的数字接近0或者单位1,比如说10%或者90%,我也会期望更强的一致性。在重复试验的基础上,特定的概率更容易让人信服,而不是某个所谓的值。

对于一个主观评估,例如明天降雨的概率是60%,情况是怎样的呢?我们不能数百次地再现今天的天气情况,然后检查降雨是有多频繁。这种“试验”只能够进行一次。但是我们也许可以通过检查这个数字产生的过程来检验这个断言。天气预报员使用天气规律的模型来得到他们的结论,即使他们的电脑屏幕上的数字是31.067%,他们也会聪明地给出大约的数字,你会听到“降雨的概率是30%”。所以现在你就能收集不同日期的数据,看看经验证据——在去年给出降水概率为30%的83天中,有多少天真的下雨了?只要那个比例合理地接近于30%,你对这个方法的信心就会增强,所以接受对“明天”的降雨概率就是个理性回应了。

概率是在不确定情况下做决定的关键。如果你真诚地相信特定的一件事或者一个论断的概率是单位1,那么你应该按照它无疑会发生一样来行事;如果你真诚地相信概率是0,那么就按照它好像绝不会发生一样来行事。

如果你认为概率是从0到1之间的某个值,那么就按照你预期它会发生的比例来行事。例如,如果你的判断是概率为60%,想象你会面临这样的情况100次,在60次中(但是你不知道是哪60次)这个事件会发生,而在40次中不会发生。努力理解,考虑到这种权衡,决定你的行动。如果你猜测概率是80%,说明你预期这个事件会更频繁地发生,你的行动可能就会不同。

就像大主教约瑟夫·巴特勒(Bishop Joseph Butler)1736年在他的《宗教的类比》(Analogy of Religion)中写的那样:“对于我们来说,概率正是生活的准则。”

[1] 诺曼底登陆(The D-Day Invasion of Normandy)是第二次世界大战时西方盟军在欧洲西线战场发起的一场大规模攻势,为“霸王行动”的一部分。

[2] 这四种牌面都算作10点,原文为“ten-card”。

[3] 塔中王子(the Princes in the Tower),指英格兰国王爱德华四世(Edward IV)的两个儿子:爱德华五世(Edward V)和约克公爵(Duke of York)。他们被理查三世关进伦敦塔之后失踪。

[4] 原文为:“I think it is impossible for someone under twenty years of age to win a Nobel Prize.”本书成书于2014年马拉拉·优素福·扎伊获得诺贝尔和平奖之前,经与原书作者John Haigh沟通,此处添加“诺贝尔物理学奖”的限定。

[5] 温布尔登网球锦标赛(The Championships, Wimbledon),网球运动中历史最长和最具声望的公开赛之一。

[6] 《星际迷航》(Star Trek),美国系列科幻娱乐影视剧。

[7] 指约克郡,白玫瑰为其与约克王朝的共同象征。理查三世为约克王朝最后一任国王。

[8] 英国国家特许经营的彩票,开始于1994年。