1.4 助他行为的演化过程：直接的互惠_道德的演化（人文与社会译丛）-QQ阅读男生都市网

上QQ阅读APP看书，第一时间看更新

1.4 助他行为的演化过程：直接的互惠

我们经常见到，一个人给另一个人提供帮助，帮助的价值远远超出他所付出的代价。假设有一种猴子容易受到某些寄生虫的侵扰，那么能清除这些寄生虫，对猴子而言具有非常重大的意义（甚至事关生死），而清除这些寄生虫只需要花费半个小时。亲缘选择可以解释为什么有的猴子愿意花费整个下午的时间，帮助它的家庭成员清理毛发；但它很难解释为什么在自然环境中有的猴子愿意帮助非亲属成员。为非亲属成员清理毛发，带来的好处远远多于清理者所付出的代价，尽管如此，它多少还是需要付出一定的成本：半个小时的时间，这足以使它找到充足的食物，或寻找到交配的机会。因此，为了没有亲缘关系的同类而做出牺牲，可以为它带来什么好处呢？一个明显的答案是，如果那些它帮忙清理的、没有亲缘关系的同类，在它清理完后（或者晚些时候）会反过来给它清理，那么这就是对大家都有利的安排。假如所有的猴子都参与这种合作，那么对任何一只猴子而言，总的好处就大于所付出的成本。第一个清楚地观察到这个过程的人是罗伯特·特里弗斯（Robert Trivers 1971），他称之为互惠利他主义（reciprocal altruism）。

对于施惠者和受惠者都有利的帮助行为，特里弗斯主要的例子是珊瑚礁上的“清洁站”。在珊瑚礁上有一些小型的“清洁工小鱼”（或小虾），它们以独特的游泳姿势游向大鱼，表示乐意为大鱼清理身上的寄生虫。如果这条大鱼想要清理寄生虫，就会张开口和鱼鳃，让这些清洁工小鱼进去工作。这条大鱼感觉差不多了，就会发出信号让里面的小鱼出来。这条宿主大鱼随时都可以在享受完小鱼的清洁工作之后，再顺势吃掉它们，饱餐一顿。假如海底世界充满了这种清洁小鱼，那么，宿主大鱼似乎就应该这么做。但是，珊瑚礁只能容纳一定数量的清洁小鱼，那么让这种交易持续下去，就更有利于大鱼的繁殖适应性。它能知道去哪里可以得到好的清洁服务，也知道这些小鱼是非常稳定的清洁工，对它很有价值，胜过一餐饭。如果大鱼为了长远利益而放弃眼前的一餐饭，那么清洁小鱼放弃了什么呢？小鱼游向大鱼（甚至进入到它的口中），冒着很大的风险；因此，它们放弃的是安全。如果小鱼不承担会被吃掉的风险，它们几乎不可能得到什么好处（吃掉寄生虫）。它们可以“耍诈”，趁大鱼不注意在后者鳍上吃一小口（正如某些种类的“清洁鱼模仿者”的做法一样），由此以他人为代价来提高它们直接的总利益。然而这种做法是短视的。找到好的清洁工是不容易的，找到忠诚的顾客也是一样。这个例子似乎表明，“互惠利他主义”不要求在帮助和回报之间有时间延迟。移除寄生虫的行为既是给寄主大鱼报酬同时也是给清洁小鱼的报酬。然而令人惊奇的是，在给出这个例子之前的段落里，特里弗斯说互惠利他主义就像是有时间延迟的“共生”现象，并且“时间延迟是这里的重要因素”（1971:39）。关于精确定义“互惠利他主义”的困难的进一步讨论，参见Ethology and Sociobiology 9（1988）上的多篇文章。

某些植物也有互惠利他主义式的成本—收益结构的关系。植物没有能力做出欺诈行为，所以也没有自然选择的压力来发展出觉察欺诈行为的能力。即使有些生物的认知能力具有可塑性，可以偶尔进行欺诈行为，互惠关系也不会很容易被利用。如果欺诈行为会破坏高度互利的关系，那么任何倾向欺诈的压力很容易被反对欺诈的压力克制。对处在持续交换关系中的双方而言，要是情况一直如此，那么自然选择完全不需诱使任何一方进行欺诈，或者教导它们如何应对欺诈。但因为只有当成本和收益在多种尺度上都达到平衡的时候，互惠交换行为才可以发展；也因为在现实世界中，价值很少是稳定的，所以，在环境因素发生变化时，互惠关系瓦解的可能性总是存在的。如果互惠关系的一方A表示，无论发生什么情况，它都愿意提供帮助，那么，回头帮助A就可能不再符合B的利益。假若欺诈带来的价值提高了（如果B可以吃掉A，而且B正面临着突然的食物短缺），那么回头帮助A就可能不再符合B的利益了。如果找到愿意提供帮助的新伙伴（虽然它们同样在被骗之后就不再愿意），要付出的成本微不足道，那么再帮助A也同样可能不符合B的利益。为了使得自然选择青睐持续的交换关系，这些价值对双方而言都必须是稳定的和对称的。 “对称性”这个词的意思是每一方所收到的好处都超出其付出的成本。但是在原则上，交往关系中的一方得到的好处有可能远远多于另一方。假设B给A4个单位的帮助，这消耗了他100个单位的成本。听起来似乎是个糟透了的交易吧？不一定：我们还可以假设，A接下来会给予B150个单位的帮助，而这只消耗了她3个单位的成本。尽管交换明显不平衡，但因为4＞3以及150＞100，双方都能从中获益，并且在其他条件都相同的情况下，他们应该继续维持这个安排。我们通常假定，对于互惠交换而言，重要的是一方只用相对较少的成本就能给别人带去利益。但这个假设不需要同时适用于交换双方。在刚才设定的情况里，这个假设对于B来说是不正确的。但是，当这个假设对于其中的一方来说不是正确的时候，为了弥补这一点，就需要这个假设对另一方来说是“极为正确”的：A给出150个单位的帮助，而只付出3个单位的成本。有意思的是，在许多互惠关系中，欺诈对方（一旦它已经得到了好处）而且不受惩罚的可能性确实存在。因此，自然选择偏向于在生物中发展出区分两种欺诈的能力，一种是会导致长期损害的欺诈，另一种是有利可图的欺诈。这又驱使生物发展出两种能力，即对欺诈行为的敏感，以及对欺诈行为的反应能力。具有这些能力的生物之间的交换关系属于经过算计的（calculated）互惠关系；处于这种关系中的个体，能够感知到相互之间的成本—收益结构中发生的变化，并依此调整自己的回应方式（de Waal and Luttrell 1988）。

如果不回报行为要付出的代价非常大，不单单是丧失了持续的交互关系，那么互惠关系的成本—收益结构就可以被稳定下来。促使这种情况发生的可能原因之一是，个人在帮助了别人之后，如果没有获得回报就会惩罚对方。另一种可能原因则是，即使你本人没有被利用，但你还是会惩罚（或拒绝帮助在某些情景中，拒绝帮助他人和惩罚他人之间或许没有很大的区别，尽管惩罚他人听起来更为“积极”。例如，如果一群狒狒要终止与群体中的某只狒狒所有来往，这就跟把它杀掉差不多了。这就是我为什么觉得Chandra Sripada的尝试有问题：他把对遵守道德的两种解释，即基于互惠的解释和基于惩罚的解释，当作是对立的解释（2005）。惩罚经常跟互惠相伴随——特里弗斯在他1971年的文章中就已经提到了。同时也应该注意，“拒绝参与”付出的代价可能跟实施惩罚一样高昂。如果狮群要是不允许一只想搭便车的母狮子来蹭饭，那么当后者闯进来分享猎物时，它们就会把它赶走，这样做可能还要冒着受伤的危险。（狮子其实很能够容忍搭便车的行为；它们的助他行为看起来是受互利共生调控的，而不是互惠，参见Heinsohn与Packer 1995。））那些你观察到有“不回报”特质的人。有人可能更进一步，会惩罚所有拒绝惩罚不帮助他人的人。这后一种惩罚性状的发展可能会受到“高阶背叛”（“higher-order defection”）的妨碍，因为相比自己回报别人也惩罚不回报者的人，那些同样回报别人但不惩罚不回报者的人具有更高的适应性。罗伯特·博伊德与彼得·里查森（Robert Boyd and Peter Richerson 1992）证明了，只要群体的规模足够小，小到所有群体成员都充分意识到不惩罚不回报之人所造成的消极后果，那么这就不是个难题。不过，他们论证道，为了解释在一个更大群体中的惩罚性状，我们必须诉诸文化的群组选择（更多相关讨论见1.7节）。

需要注意两个重要因素。首先，这些“互惠利他主义者”并不是我所定义的“利他主义者”。毕竟，例子里的清洁小鱼，并不具备做出日常意义上的利他或自私主义的行为所需要的心理条件；它们可能甚至都不具备进行行为的必要条件。其次，也许相对不那么明显的是，这些助他的生物也并没有表现出牺牲繁殖适应性的行为（因此，它们不是在“演化论意义上利他的”，参见Sober 1988）。在互惠交换中，双方都没有为了对方而损失其繁殖适应性。按照特里弗斯的定义，“利他主义行为”（他指的是助他行为）是那些“在表面上对该生物是有害的”（1971:35）的行为。但是显然，表面上的牺牲繁殖适应性并不是真正的牺牲繁殖适应性，正如外表上像劳力士的手表并不是真正的劳力士手表。还有的人将“互惠利他主义”定义为短期的牺牲繁殖适应性行为。但是，为了长远的价值而放弃短期价值并不是牺牲繁殖适应性，正如猴子为了找到树上的果子而费力爬树并不是牺牲繁殖适应性行为一样。尽管经常有人主张，互惠利他主义和亲缘选择能够共同解决所谓的演化利他主义难题，但如果（1）我们说的“利他主义”指的是牺牲繁殖适应性的行为（而不是表面的或短期的牺牲繁殖适应性行为），（2）“适应性”指的是总体的繁殖适应性，以及（3）“对演化利他主义这个难题的解决”指的是，解释这样的利他主义是如何可能的，那么我就不清楚还有什么理由表明这种常见主张是正确的。但是在另一方面，对助他行为的演化而言，互惠性很可能确实是一个重要的过程。出于这些原因，我更偏向使用互惠交换（reciprocal exchanges），或互惠性（reciprocity）这两个术语，来指称特里弗斯笔下的“互惠利他主义”。可能有人觉得这是在用词上吹毛求疵。但我见识过太多由这种约定的和半比喻式地使用“利他主义的”和“自私”而导致的混淆，因此，我认为在这里挑剔一些是有正当理由的。

特里弗斯认为，我们可以用囚徒困境（博弈论研究者长久以来的至爱）来为自然界中的互惠交换构建模型。在囚徒困境（PD）中，两个人要决定如何互动：他们可以同时采取合作，也可以同时背叛对方，或者可以一方合作而另一方背叛。但是他们需要同时做出决策，然后再比较决策结果。每一个可能的结果都与两个参与者的“回报”相关（图表1.1）。用习惯的标记法，8是R（reward for cooperation，给予合作的奖励）,10是T（temptation，诱惑）,1是S（sucker's reward，蠢货的回报）,3是P（punishment，两者同时招供导致的惩罚）。囚徒困境要求T＞R＞P＞S，并且2R＞T+S。严格来说，只有重复博弈才需要第二个条件。如果2R比T+S要小，那么在重复博弈中，两个参与者每人在T和S之间的来回切换比一起合作要更有利。

图表1.1

如果你只能和另一个玩家一起玩一次这个游戏，要知道该怎么选择并不容易。也许你觉得，相互合作会有好结果，可是一旦你选了“合作”，那你就可能被利用。你相信你的对手不会让你只得到1？为了安全起见，也许最好还是选择“背叛”，毕竟得到3起码比得到1还是要好一些。当然，如果对方也是这么考虑的，最终你们会互相背叛。但是如果游戏是重复的，你和同一个对手一直玩，虽然不知道什么时候停止，那情况可就不同了。你需要制定一套策略，根据对手之前的选择来做出决定。你可以决定先背叛几次，然后再用合作来向她“道歉”。你也可以无视对方是怎么做的，一直选择背叛。罗伯特·阿克塞尔罗德（Robert Axelrod 1984）使“以牙还牙”策略（Tit for Tat, TFT）声名远扬［虽然这最先是由安那托尔·拉波波特（Anatol Rapoport）提出的］。TFT极其简单：第一轮与对方合作，从这往后一直重复对手上一轮的举动。换言之，只要对方合作，你也跟着合作；永远不要率先背叛对方，但如果对方选择背叛，那你就立即跟着背叛。此外，如果双方一直相互背叛，那就耐心地等到对方“道歉”为止（因为必须由她开始）。TFT是“友善的”，既不会被对方严重利用，也不利用对方。

现在回头想想那只“搭便车”、不帮同伴清理毛发的猴子。假设它先请求一只没有亲缘关系的猴子（称他为“A”）给她清理，A立刻帮助了她。随后A请她帮忙清理，却一无所获。由于A根据“TFT”规则行事，A就不会再为她免费整理毛发，除非她决定以后也为A整理毛发。到目前为止，她的确是占了便宜，因为她得到一次无偿的清理，而A却一无所获。但是如果我们考虑其A接下来的活动，她就不再是一个获利者了。她从A那里得到了无偿的毛发整理，我们再假设她也在族群里别的猴子那里都设法占到了同样的便宜（每只猴子都根据TFT而行事）。从此之后，她的运气就到头了；没有任何一只猴子愿意碰她（除了她的亲属。为了阐明我的观点，这里假设单纯依靠亲属的照料不足以抵御寄生虫的滋扰）。同时，只要其他猴子还保持着相互交往，都乐于为彼此整理毛发。这只猴子最终将死于寄生虫感染。搭便车就到此为止了！

人们对TFT有一个通常的误解，认为TFT任何时候（或者在大多数情况下）都可以胜出。恰恰相反，TFT从来不会胜出。当对手选择合作时，选择背叛是在一轮博弈中拿到更多分数的唯一途径——而根据TFT的定义，只有自己在上一轮的博弈中受到了这样的对待，博弈者才会这样做。TFT所能获得最好结果是跟对手打平。然而，如果我们所说的“胜出”指的是别的意思，那TFT确实可以胜出。如果使用各种策略（或者各种策略的不同版本）相互争斗，胜出者是整个竞赛（假设这里不是“淘汰”赛）最后取得最高分的那位，那么TFT就可以带来胜利。虽然与任何人作为对手，使用TFT最好的结果都是平局，但假如其他所有对手彼此博弈时都有输有赢，那么采取TFT的人最终会成为赢家。在具有某些形式的竞赛中，TFT通常可以取得极大的成功。

但是，实际情况比这里描述的要复杂得多。TFT的成功完全取决于游戏设定的方式，而且有很多理由认为，这个博弈游戏的规则未能模拟出真实世界里互惠交换的许多方面（进一步的讨论，参见Hirshleifer and Martinez Coll 1988）。这里提供六个例子：

1. PD博弈的要点完全在于参与者要同时做出选择，特里弗斯则强调，互惠交换关系的重要特征是时间上的延迟。要改进PD模型，可以引入交替的囚徒困境，其中博弈者做出决策之前已经知道对手的动向。

2．真实世界里的生物会出错；在彼此之间的交流中容易发生误解。对于两个原本合作愉快的TFT博弈者来说，这是灾难性的：如果一人认为对方背叛了自己，她就会立即背叛对方，导致彼此不断选择背叛。要改进模型，可以把“噪声”（noise）引入博弈，从而有一定概率出现沟通失误和意外发生。

3．从演化的角度看，有的策略比别的策略要付出更大的成本。采用TFT的博弈者需要有某种分辨的技能，而使用“坚持合作”（always cooperate, ALL C）或“坚持背叛”（always defect, ALL D）策略的人则不需要。因而，在只有TFT和ALL C两类参与者的博弈竞赛中（所有人都忙于跟别人合作），那些实行ALL C的人具有适应性优势，最终获得胜利。改进模型的相应方法是，对参与者的策略征收“复杂税”（complexity tax）。

4．在跟别人往来之前，我们已经观察到了他们的其他行为。换言之，在我们坐下来开始向对手采取行动之前，我们大概已经有一定的基础来判断她将采取什么策略。这很可能影响到我们对她所采取的策略，影响到我们在多大程度上可以容忍对方偶尔的“背叛”等。要改进模型，可以让参与者树立个人“声望”，并根据对方的声望调整自己的策略。［这种改进可以包括给博弈者提供“审查交易”（scrutiny deal），在这项交易中，一方可以付出一定的代价而得到潜在对手的各种信息。］

5．在标准的PD竞赛中，一个参与者被迫与另一个人进行博弈，无论他多么反感自己使用的策略，但是，在真实生活中，我们常常可以主动叫停彼此的互动。与4的情况结合起来，我们还可以根据某人的声望而选择完全不同他打交道。要改进模型，可以把拒绝（再继续）博弈作为博弈中的选项之一。

6．虽然有的人认为TFT会“惩罚”那些选择背叛的对手，但其实这算不上真正的惩罚。它甚至算不上“以眼还眼”，因为要让耍阴招的对手品尝到一模一样的苦果（即“蠢货的惩罚”），唯一的方法就是迫使她合作，而你则选择背叛。特里弗斯指出，人类的互惠交换关系具有“道德主义的侵略性”（“moralistic aggression”），这种侵略性不仅仅是TFT式的温和反应，像“你要不改变自己的策略，我就会一直背叛你”，它表现为更积极的处罚（penalty）手段，即谴责、孤立乃至用暴力对待背叛者。为了改进之前的模型，可以允许参与者不仅能选择背叛，还可以更进一步地惩罚他人（同时也要付出一定代价）。

在某些版本的PD竞赛中，大部分上述修正都有所采用（虽然也许其中有的版本已经不能算是囚徒困境），博弈结果显示TFT并不占据上风。首先，我们来考虑一下把“噪声”引入交互环境的修正。正如我们注意到的，这对TFT的稳定发展意味着灾难。另一个可选策略（它也曾风光一时）被称为“PAVLOV”。“PAVLOV”［其能力由马丁·诺瓦克与卡尔·西格蒙德（Martin Nowak and Karl Sigmund 1993）所发现］所遵循的策略是“获胜就继续，输了就改变”，这里获胜意味着得到R或T的回报，而失败意味着得到S或P的回报。PAVLOV比TFT要更能承受意外。假设有两个PAVLOV参与者，厄尔尼和伯特，正当他们都连续合作的时候，厄尔尼不小心按错了背叛按钮。伯特输掉了这一轮，因此在下一轮游戏中就转换到“背叛”策略。同时，由于厄尔尼赢了前一轮游戏，他就继续使用背叛策略。由于两个参与者都被对方背叛了，他们马上就又回到了互相合作的策略。（一个惊叹号显示了噪声的干扰。）

厄尔尼：……C C D! D C C……

伯特：……C C C D C C……

重回合作关系当然很好。但是，当PAVLOV意外发现了某个一视同仁的合作者时，让我们看看会发生什么。在第一对参与者中，杂音干扰到PAVLOV；在第二对参与者中，杂音干扰到ALL C。

PAVLOV: ……C C D! D D D……

ALL C: ……C C C C C C……

PAVLOV: ……C C C D D D……

ALL C: ……C C D! C C C……

采用PAVLOV的博弈者会残酷地剥削对方，直到有噪声再次干扰这个过程。有些评论者隐约意识到，TFT不是PD游戏的终极策略，但他们还是赞同以下晦涩的观点：使用某种“类似TFT”策略的人最后总是赢家。但是，假设我们认为TFT的“非剥削性”是其重要特征，那么PAVLOV很明显就不能称得上“类似TFT”。PAVLOV对那些愚蠢的善人毫不留情，这种特质对其成功贡献巨大。对手若是ALL D（持续背叛的）博弈者，PAVLOV就会很糟糕，一直在合作和背叛之间转变，轮流地接受P和S的回报（而使用ALL D的对手则获得P与T）。尽管如此，PAVLOV要是能发现可以跟足够的其他PAVLOV博弈者互动，它仍然可以离开ALL D的环境。面对另一个PAVLOV对手，PAVLOV只能得到R（不考虑噪声）。而两个互为对手的ALL D的博弈者只能获得P（原因同上）。因此，一个PAVLOV玩家面对两个对手（一个是PAVLOV博弈者，另一个是ALL D博弈者），他的总体表现要好过一个同样面对这两个对手的ALL D博弈者，当且仅当P+S+2R＞T+3P。但是，我们不能说这一定会发生，因为PD模型的标准与P+S+2R＞T+3P以及P+S+2R＜T+3P都是一致的。Nowak与Sigmund更偏向于先依靠某种类似TFT的策略把ALL D“清除出去”，从而让PAVLOV能够称王称霸。

虽然生物可能追求类似“获胜就继续，输了就改变”的策略，以此应对周围的环境（例如在做出觅食决策时），但指望这套策略发展成熟，从而支配智能生物的交往模式，则是错误的。为什么呢？采取PAVLOV所获得优胜地位的一个重要原因在于，它能利用噪声因素排除ALL C博弈者，并能够把他们剥削至死。然而，发现没有辨别能力的参与者并剥削它们，即便这样做确实有生存优势，那么生物的自然选择也不大可能挑选出这种效率低下的机制：“耐心等待，直到你偶然使用了背叛的策略，然后看接下来会发生什么。”如果要先发现对别人都一视同仁的博弈者，才能获得这种优势，那么自然选择大概更青睐更为直接的清除方式。有的生物可能会先故意背叛对方，然后观望结果。但这种实验性的背叛可能面临严重的处罚。（如果你想知道某国法律是否处死叛国者，那么亲自到那里去，犯下叛国罪然后观望后果，显然是非常糟糕的满足好奇心的方式。）如果识别蠢货和叛徒是重要的，那么最好的方法大概是观察其他博弈者是如何相互交往的。显然，收集信息需要付出一定的代价（从适应性的角度来看），但是事先知道对手将会采用什么样的策略，这带来的回报是相当可观的。现在已经有一些研究者，尝试模拟PD博弈的回应方式中的这一因素（例如，Sugden 1986;Pollock and Dugatkin 1992; Nowak and Sigmund 1998; Panchanathan and Boyd 2003,2004）。然而，这些研究通常只是用声望的概念来反映一个人过去是否自发选择过背叛。可是PAVLOV的成功表明，声望也应该反映一个人是否是一个无条件合作者。