第10章 更新知识
一旦我们承认每个人都以一大堆先验置信度为起点,接下来的关键步骤,就是获得新信息时对这些置信度的更新。我们需要贝叶斯定理的一个更精确的描述来做到这一点。
我们先回到扑克的例子。我们知道我们手头上的牌,但不知道对手的牌。这时可以有各种各样的“命题”(对某种可能性出现的断言),而我们有一张囊括所有可能命题的列表。在扑克的情况下,不同的命题对应着对方一开始所有可能的手牌(什么也没有、一对、比一对更大的组合)。在别的情况下,这些命题可能是对于朋友说出异想天开的一句话的各种解释(他是对的、他没说谎但是被误导了、他在吹牛),也有可能是一些互相矛盾的本体论(自然主义、超自然主义,甚至更奇怪的主义)。
我们考虑的每个命题都被赋予了一个先验置信度。为了帮助理解,我们可以将置信度看成分开放在一系列瓶子中的沙粒。每个瓶子代表一个命题,而瓶子里沙的数目与我们赋予命题的置信度成正比。命题X的置信度就是贴着标签X的瓶子里沙粒数目占所有瓶子沙粒总数的比例。
我们把它叫作“沙粒规则”。
贝叶斯定理告诉我们每当获得新信息时应该如何更新这些置信度。比方说我们以新数据的形式获得了这些信息,例如扑克对手换了多少张牌。然后,对于每个瓶子,我们取出其中沙粒的一部分,这部分沙粒对应的是,在瓶子相应的命题正确的情况下,我们不会获得现在的新信息的似然性。如果我们觉得对手在手上只有一对的情况下,他只换一张牌的可能性是10 %的话,每当他只换一张牌,我们就从贴着“一对”的瓶子里去掉十分之九的沙粒。然后我们用同样的方法处理其他瓶子。在最后,沙粒规则仍然保留:命题X现在的置信度就是X对应的瓶子里沙粒的数目除以所有瓶子中沙粒的总数。
这个过程所做的,就是根据似然性重新分配先验置信度,由此获得后验置信度。我们可以从一堆沙粒数目相同的瓶子出发,它们对应着相同的置信度。然后我们获得某些新信息,某些命题正确时这些信息更有可能出现,而对于别的命题却可能恰恰相反。对于这些信息出现可能性更大的命题,它们的瓶子会留下相对更多的沙粒,对应着这些命题更大的后验置信度。当然,如果某个命题的先验置信度远超过它的竞争者,我们需要去掉非常多的沙粒(收集到在那个命题正确的情况下非常不可能出现的数据)才能使它的置信度变小。当先验置信度非常大或者非常小的时候,需要非常惊人的数据才能动摇我们的置信度。
——
现在考察一个不同的场景:你是个高中生,对某个人一见钟情,想邀请这个人一起出席毕业晚会。问题是,这个人到底会不会答应?你有两个命题:“答应”(会和你一起出席晚会)还有“不答应”(不会这样做)。对于每个命题,我们都有相应的先验置信度。我们乐观点,给“答应”赋予0.6的置信度,“不答应”则是0.4(显然所有置信度加起来都应该是1)。我们准备好两瓶沙粒,在“答应”的瓶子里放上60颗,“不答应”的瓶子里放上40颗。沙粒的总数无关紧要,相对比例才最重要。
下一步就是收集新信息,然后利用似然度来更新先验的置信度。你站在鞋柜旁,看见你的梦中情人在走廊上走过来。这个人是会跟你打招呼,还是直接走过?这要看梦中情人对你印象如何——如果比较想跟你一起出席晚会的话,就更有可能跟你打招呼。你关于人类互动的丰富知识告诉你,在命题“答应”的情况下,梦中情人会有75 %的可能性停下来打招呼,只有25 %的可能性会一走了之(可能是心不在焉)。但在命题“不答应”的情况下,相应的概率就没那么漂亮了:梦中情人有30 %的可能性会打招呼,但一走了之的可能性则是70 %。这就是你在不同的命题下得到不同信息的似然度。现在是时候来收集数据并更新置信度了!
假设你的梦中情人的确停下来跟你打了个招呼,让你心花怒放。这会如何影响这个人答应一同出席晚会的概率呢?贝叶斯牧师告诉我们,要从“答应”的瓶子里去掉25 %的沙粒,而从“不答应”的瓶子里去掉70 %(这在每种情况下都对应着观察到的结果没有出现的比例)。在“答应”的瓶子里留下了60 × 0.75=45颗沙粒,而“不答应”的瓶子里则是40 × 0.30=12颗。根据之前的沙粒规则,更新后“答应”的置信度就是对应瓶子里沙粒数量(45)除以两个瓶子里沙粒的总数(45+12=57),这大约就是0.79。
结果不错!梦中情人答应一起出席晚会的置信度从先验置信度的60 %一路飙升到了后验置信度的79 %,这仅仅源于驻足后的一声问候。我觉得是时候去买套正装了。
不要让计算的细节干扰了主题。在贝叶斯的哲学中,对于有关这个世界的所有可真可假的命题,我们都赋予一个先验置信度。每个这样的命题也伴随着一系列的似然度:也就是如果这个命题是真的,那么五花八门的其他事情成真的可能性。每当我们观察到新的信息,我们就将原来的置信度与每个命题下得到当前观察结果的似然度相乘,用来更新我们的信心程度。用符号来说就是:
这就概括了贝叶斯定理。“∝”这个符号的意思是“正比于”。它提醒我们要保证最后得到的所有置信度加起来是1。
——
在某些情况下,比如说玩扑克或者抛硬币时,给出置信度的具体数值看上去非常自然,因为我们能枚举所有的可能性。当描述未来的事件时,我们也习惯谈到概率:“正在袭来的小行星会撞击地球并导致大灭绝的可能性小于百分之一。”
然而贝叶斯方法能应用的范围更加宽广。它提醒我们,对于每一个有关这个世界的可真可假的事实陈述,都要赋予先验置信度,然后进行适当的更新。上帝是否存在?我们内心的意识体验能否用完全物理的方式来解释?对与错有客观的标准吗?这些问题的所有可能答案,它们作为命题,每个人都有一个先验置信度(不管我们是否承认),然后每当遇到相关的新信息时,我们都会更新这些置信度(无论方法是否正确)。
贝叶斯定理让我们可以量化信心程度,但同时也不断提醒我们信念是如何运作的。这种思考信念的方式带来了不少有用的经验教训。
初始信念很重要。当我们尝试理解世间真理时,每个投身于此的人都有某种先决的感受,认为某些命题有可能正确,另外一些命题看上去就不太现实。这不是一种需要努力改正的麻烦缺陷;这是在信息不完全的条件下进行推理的必需品。而说到对现实最本质构造的理解,没有人拥有完整的信息。
先验置信度是深度分析的起点,很难说某种特定的初始信念“正确”或者“不正确”。当然也有些实用的经验法则。最显然的可能就是简单理论的先验置信度应该比复杂理论的要高。这不代表简单的理论都正确;但如果某个简单的理论不正确的话,我们可以通过收集数据来得知这一点。正如阿尔伯特·爱因斯坦所说:“所有理论的最终目标就是尽可能精简不可规约的基础单元,但又无须付出放弃适当解释实验中每一数据点的代价。”
简洁有时很容易衡量,有时就不一定了。考虑下面三个相互矛盾的理论。第一个理论宣称太阳系行星和卫星的运动至少以不错的精度服从艾萨克·牛顿的引力和运动理论。第二个理论宣称牛顿力学完全不成立,取而代之的是所有天体都有所属的天使,这些天使引领着行星和卫星在空间中穿行,只是它们的路径恰好与牛顿预言的吻合。
绝大部分人都会认为第一个理论比第二个更简单——你能得到相同的预测,而无须牵涉捉摸不定的“天使”。但第三个理论是牛顿力学可以解释太阳系中所有物体的运动,除了月亮,它是被天使引领的,只是这个天使选择了跟随牛顿预测的轨道。无论你对前两个理论有什么看法,第三个理论的确比它们都复杂,这大概没什么争议。它包括了两个理论中所有的机制,但在实际预测中却看不出来什么差别。所以我们很有理由向它赋予一个相当低的先验置信度(这个例子看似无谓,但当我们谈到生物演化的脚步或者意识的本质时,会经常看到类似的情况)。
有些人不喜欢贝叶斯主义对先验置信度的重视,因为这些置信度看起来完全是主观的,一点也不客观。这是对的,它们的确不客观。我们没有别的办法,起点总要放在某个地方。从另一个方面来说,观察到某种现象的似然度在理想情况下是由客观因素决定的。如果你有某个描述世界的理论,它能精确计算而又定义明确的话,你可以有把握地说出,在假定你的理论正确的前提下,观察到不同数据的机会是多少。当然,在现实情况中,我们经常陷入困境,需要尝试评估那些一开始定义就不明确的理论(“意识超越了物理层面”是个完全合理的命题,但要作出量化的预测,它还不够明确)。尽管如此,我们还是必须尝试提出定义尽量明确的命题,明确到可以让我们客观确定不同观察结果的似然度。
每个人都可以自己确定先验置信度,但似然度就不应自己选择。
证据会将我们引向共识。你可能会担心,主观的先验置信度会令某些人难以达成一致结论。如果我对一个想法,比如说“上帝创造了宇宙”,赋予了0.000001的先验置信度,而你对同一命题赋予的却是0.999999的话,需要在观察的基础上做出相当大的置信度更新,我们其中一个才会转变观点。
在实际操作上,这是个大问题。人们有些永远不会改变的观点,在贝叶斯的语言里,这对应着0或者1的先验置信度。这种情况很糟糕,而我们在现实世界中也需要学着对付这种情况。
但从原则上来说,如果我们都试着公正论断、思想开放,并且愿意在新信息面前改变信念的话,最终,证据还是会胜利。我们可以向某些想法赋予非常高的置信度,但如果这个想法预测某些结果只会有1%的机会发生,而这些结果却一直在发生的话,诚实的贝叶斯置信度更新最终会使你向这个想法赋予非常低的后验置信度。你也许会对“喝咖啡会让我拥有精确预言未来的能力”赋予非常高的置信度。然后你喝点咖啡,做点预言,发现你的预言没有成真,然后更新你的置信度。如果你重复足够多次,观察数据会将你原来的先验置信度一笔勾销。这就叫“回心转意”,也是件好事情。另外,因为似然度应该是客观的,随着收集的数据越来越多,每个人也会被数据逐渐推向同一组有关世界的最终信念上。
无论如何,这就是应有的做法。要诚实可信地执行这些步骤就取决于我们每个人了。
有利于某个命题的证据必然不利于其他竞争命题。想象一下,我们正在比较两个命题和Y,而我们观察到一个结果,如果X正确的话它有90 %的机会发生,如果Y正确的话则是99 %。根据贝叶斯定理,在收集到这项信息后,我们赋予X的置信度会降低。
这看起来不符合直觉。毕竟如果X是正确的话,我们有90 %的机会得到那个结果——怎么观察到对应结果也会成为否定这个理论的证据呢?答案在于,它在别的理论下更有可能发生。置信度的转移可能不大,但一直都会存在。结果就是,你可以用某个理论解释某件事的这个事实,不代表这件事的发生不会降低你对这个理论的置信度。反过来说也对:如果某项观察结果会对某个理论有利,但我们得到的是相反的观察结果,这必定会降低我们对这个理论的置信度。
考虑两个不同的理论:有神论(神的确存在)和无神论(神不存在)。想象我们生活在一个假想世界里,其中世界各地古往今来不同社会中的宗教经典都完全互相吻合——它们讲述的故事相差不远,宣扬的教义也始终如一,即使所有这些经典的作者之间不曾有过任何办法相互沟通。
每个人都会合情合理地将这看作有利于有神论的证据。即使在无神论中,对这种广泛存在的一致性,你也可以鼓捣出一个复杂的解释:可能我们有一种普遍的动力去讲述某种特定的故事,这种动力由人类演化的历史植根于心中。但我们不能否认有神论提供的解释更为直接:神将祂的言语传播到了许多不同的人群中。
如果这是真的,我们通过牢不可破的逻辑得到的结论就是,不同宗教经典之间一致性的缺失是反对有神论的证据。如果数据D会增加我们对理论X的置信度的话,那么非D就必然减少这个置信度。即使在有神论正确的情况下,也不难解释这种不一致性:有可能神偏爱某些人,或者不是每个人对神都倾听得那么仔细。这是我们对似然度估计的一部分,但不足以改变结果的本质。如果不弄虚作假的话,每当我们观察到更可能出现在竞争理论中的结果时,我们赋予某个理论的置信度都应该降低。改变可能微小,但确实存在。
所有的证据都很重要。要扮演正直的贝叶斯主义者,而实际上通过只注意某些证据而不是所有证据来偷龙转凤,这不是什么难事。
比如说有朋友告诉你,他们相信尼斯湖水怪真实存在。他们说有真实照片可以作为很好的证据。你必须承认,当然是尼斯湖水怪存在的理论下,能拍到这样的照片的似然度要比它不存在时更高。
此言不虚,但事实并非全然如此。首先,你对于有怪物生活在苏格兰的某个偏远的湖里这个事情的先验置信度应该相当微小。即使如此,如果证据有足够的说服力,你就应该回心转意。但几张模糊的照片并非全部证据。我们同样应该算上所有那些尝试在湖中寻找怪兽,但却一无所获的搜索行动。不消说还有尼斯湖水怪的著名原版照片的拍摄者最终承认这是一场骗局的证据。我们不能挑选自己希望考虑的证据,而应该将所有相关的事物纳入考虑。
贝叶斯定理是足以改变我们生活方式的洞察之一。我们每个人都担负着各式各样的信念,支持或否定着五花八门的命题。贝叶斯教导我们:一、永远不要完全确信任何这样的信念;二、当发现新证据时一定要准备好更新我们的置信度;三、这些新证据应该如何具体改变我们的置信度。这就是一步步接近真理的路线图。