每天读点博弈论
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第2章 囚徒困境,选择决定胜败(1)

生活中,你总是会遇到博弈论的内容,你也往往会陷入类似“囚徒困境”的两难境地。如同哈姆雷特一样,合作还是背叛,是一个很难抉择的问题。但再难解的问题也并非毫无办法。而且,如果你能够巧妙地利用这种棘手的困境,还可以帮助自己化解难题,为自己带来更多利益。

▲两难选择,合作还是背叛?

1950年,由就职于兰德公司的梅里尔·弗勒德(Merrill Flood)和梅尔文·德雷希尔(Melvin Dresher)拟定出一种相关困境的理论,后来由顾问艾伯特·塔克(Albert Tucker)以囚徒方式阐述,并命名为“囚徒困境”。这也是关于博弈论,流传最广的一个故事,在哲学、伦理学、社会学、政治学、经济学乃至生物学等学科中,获得了极为广泛的应用。

故事有很多版本,大意是这样的:

有一天,一位富翁在家中被杀,财物被盗。警方在此案的侦破过程中,抓到两个犯罪嫌疑人,并从他们的住处搜出被害人家中丢失的财物。但是,他们矢口否认曾杀过人,辩称是先发现富翁被杀,然后只是顺手牵羊偷了点儿东西。于是警方将两人隔离审讯。检察官说:“你们的偷盗罪确凿,所以可以判你们1年刑期。但是,我可以和你做个交易。如果你单独坦白杀人的罪行,我只判你3个月的监禁,但你的同伙要被判10年刑。如果你拒不坦白,而被同伙检举,那么你就将被判10年刑,他只判3个月的监禁。但是,如果你们两人都坦白交代,那么,你们都要被判5年刑。”

显然最好的策略是双方都抵赖,结果是大家都只被判1年。但是由于两人处于隔离的情况下无法串供。那么,囚徒到底应该选择哪一项策略,才能将自己个人的刑期缩至最短?两名囚徒由于隔绝监禁,并不知道对方选择;而即使他们能交谈,还是未必能够尽信对方不会反口。就个人的理性选择而言,检举背叛对方所得刑期,总比沉默要来得低。试设想困境中两名理性囚徒会如何做出选择:

若对方沉默,背叛会让我获释,所以会选择背叛。

若对方背叛指控我,我也要指控对方才能得到较低的刑期,所以也是会选择背叛。

二人面对的情况一样,所以二人的理性思考都会得出相同的结论——选择背叛。背叛是两种策略之中的支配性策略。因此,这场博弈中唯一可能达到的平衡,就是双方参与者都背叛对方,结果二人同样服刑5年。

这样两人都选择坦白的策略以及因此被判5年的结局,被称为“纳什均衡”,也叫非合作均衡。从这里可以引出一个悖论:从利己的目的出发,结果却损人不利己。两个囚徒的命运就是如此。从这个意义上说,我们还可以悟出一条真理:合作是有利的“利己策略”。

但它必须符合以下黄金律:也就是我们常说的“己所不欲勿施于人”,且前提是“人所不欲,勿施于我”。

纳什均衡的贡献是,证明了在这一类的竞争中,在很广泛的条件下是有稳定的解存在,只要是别人的行为确定下来,竞争者就可以有最佳的策略。他的这项理论工作使得博弈论从此成为经济学家用来分析商业竞争到贸易谈判种种现象的有力工具。

现实中,无论是人类社会或大自然都可以找到类似囚徒困境的例子:

在政治学中,两国之间的军备竞赛可以用囚徒困境来描述。两国都可以声称有两种选择:增加军备(背叛)、或是达成削减武器协议(合作)。两国都无法肯定对方会遵守协议,因此两国最终会倾向增加军备。似乎自相矛盾的是,虽然增加军备会是两国的“理性”行为,但结果却显得“非理性”(例如会对经济造成都有损坏等)。这可视作遏制理论的推论,就是以强大的军事力量来遏制对方的进攻,以达到和平。

在经济学中,表现为关税战。两个国家,在关税上可以有以两个选择:

提高关税,以保护自己的商品。(背叛)

与对方达成关税协定,降低关税以利各自商品流通。(合作)

当一国因某些因素不遵守关税协定,独自提高关税(背叛),另一国也会做出同样反应(亦背叛),这就引发了关税战,两国的商品失去了对方的市场,对本身经济也造成损害(共同背叛的结果)。然后二国又重新达成关税协定。(重复博弈的结果是将发现共同合作利益最大。)

在商业中,以广告战为例:两个公司互相竞争,它们的广告互相影响,即一个公司的广告较被顾客接受则会夺取对方的部分收入。但若二者同时期发出质量类似的广告,收入增加很少但成本增加。但若不提高广告质量,生意又会被对方夺走。

这两个公司可以有二个选择:

互相达成协议,减少广告的开支。(合作)

增加广告开支,设法提升广告的质量,压倒对方。(背叛)

若二公司不信任对方,无法合作,背叛成为支配性策略时,二公司将陷入广告战,而广告成本的增加损害了二公司的收益,这就是陷入囚徒困境。在现实中,要两个互相竞争的公司达成合作协议是较为困难的,多数都会陷入囚徒困境中。

除了上述领域,在生活中,往往也有很多囚徒博弈的例子,比如有这样一个故事:

两个旅行者麦克和约翰从一个以出产瓷器的著名旅游胜地回来时,他们各买了一个瓷花瓶。提取行李时,发现花瓶被碰破了。他们向航空公司索赔。

航空公司估计花瓶的价格在80~90元左右,但不知道这两位旅客购买的准确价格。航空公司要求两位旅客在100元以内自己写下花瓶价格。若两人写的相同,说明他们说了真话,就照他们写的数额赔偿;如果两人写的不一样,那就认定写得低的旅客讲的是真话,按这个低的价格赔偿,但是对讲真话的旅客奖励2元钱,对讲假话的旅客罚款2元。

如果两人都写100元,他们都会获得100元。但是,假定约翰写100元,麦克改写99元,则他会获得101元。约翰又想,若麦克写99元,他自己写98元,比写100元好,因为这样他获100元,而自己写100元当麦克写99元时自己却只获97元。而给定约翰写98元,麦克又会写97元……这样,最后落得两个人只写1元的境地。

双输,这就是囚徒困境带来的结果。

再有,一个小镇政府有一个为期一年的采购计划,每个月采购一批饮料。如果小镇上的两家饮料公司的报价一致,那么政府就把订单一分为二。否则,政府会把更多的订单给报价低的那个公司。显然,这两家公司都报出同样的高价,才符合其利益。在这种多次博弈中,他们会联合起来出高价吗?如果会,那么在一年12次的博弈中他们会合作几次呢?

假如他们开始签订了合约,都报出一个比较高的价位。不过,显然最后一次他们不需要遵守合约,因为反正以后没有采购计划了,违约也不会有什么坏处。如果是这样,倒数第二次也不需要遵守合约,因为不论怎样倒数第一次都是要违约的,那就不存在是否有惩罚的问题。所以倒推下来,一次合约都不用遵守。两家公司最后可能还是两败俱伤。

如果你有兴趣,还可以做一个实验:选定几个人,让他们都猜一个数字,必须是1或100之间的整数。条件是谁最接近所有实验者的所猜数字平均值的1/3,谁就可以得到100块钱。

这个时候,每一个人都会想:如果一开始其他人都是随机地选择数字,50就会是所有人的猜测。这个时候,猜50的1/3也就是大约17可能会赢。然而,每一个人都会猜到17这个数字的时候,大家就会猜测17的1/3,也就是6左右。依此类推,这个游戏中的每一个人最终猜测的结果是唯一最小的数字,那就是1。

我们可以看到,在“囚徒困境”中,每一方在选择策略时,都只是选择对自己最有利的策略,而并不顾及其他对手的利益和社会效益。表面上看,这种策略组合是由当事双方各自认为的最佳策略构成。实际上,双方都选择拒绝招供才是真正的最佳策略,因为这样才会使两个人都无罪释放,双方都获得最大利益。但是,没有人会主动改变自己的策略以便使自己获得最大利益,因为,这种改变会给自己带来不可预料的风险——万一对方没有改变策略呢?

这就是“囚徒困境”中的两难境地,生活中如果遇到类似困境该怎么办?有什么解决的办法吗?下面来谈。

▲遵守游戏规则

“囚徒困境”这个问题为我们探讨合作是怎样形成的,提供了极为形象的解说方式,产生不良结局的原因是因为囚犯二人都基于自私的角度开始考虑,这最终导致合作没有产生。

个体的理性导致双方得到的比可能得到的少,这就是“困境”。当个体都做出有利于自己的“理性”选择时,结果却是整体的非理性。当个人理性与集体理性发生冲突的时候,每个人都以利己的目的为出发点,结果既不利己也不利人,导致的最终结果是“纳什均衡”,对双方都不利。

生活中,我们每个人再和别人交往的过程中,都有可能遭遇到这种困境。该怎么做才能使自己的利益最大化呢?

其实道理很简单,对大家最合理和有利的做法是大家都遵守游戏规则,从而达到“双赢”的目的。

如果你选择背叛而对方选择合作,表面上看起来是你得到了最大利益。但实际生活中,我们会面临多次重复的囚徒困境。而在重复的囚徒困境中,博弈被反复地进行。因而每个参与者都有机会去“惩罚”另一个参与者前一回合的不合作行为。这时,合作可能会作为均衡的结果出现。欺骗的动机这时可能被受到惩罚的威胁所克服,从而可能导向一个较好的、合作的结果。

所以,与其被迫在得到惩罚之后才选择合作,不如大家都遵守游戏规则。

一次,有位中国商人和两个房地产公司的客户去澳大利亚墨尔本,与一家建筑设计事务所商谈项目设计的事情。这家事务所在墨尔本市中心,澳方咨询合作伙伴开车接他们去那里。到达后停车的时候,他发现一个穿制服的管理员拿着一支粉笔,在一些车的右后轮胎的上方划上一道横线。他问合作伙伴,这个人为什么这样做?他解释说,墨尔本市中心的停车位非常紧张,所以每辆车在一个位置上只可以停留40分钟。停车管理员巡视整个街区,在每一辆新近停留的车上做标记,如果过了40分钟,某一辆车的轮胎上画的线还在上方的位置,那他就要抄牌了。

他们在这家事务所谈了半个小时后,他的那个合作伙伴跟大家说:抱歉,我要下楼一下。十几分钟后,他回来了,轻松地说:没什么事,只是挪了一下车,在街上兜了一圈回来,又可以有40分钟的停车时间了。这位中国商人笑了起来:为什么要兜一圈车?你把粉笔道儿擦掉不就行了吗?他愣了一下,很严肃地说:你怎么会这样想?那不是撒谎吗?稍后,他可能看出了对方的尴尬,缓和了口气说:规则是要大家一起遵守的,我们已经习惯了,所以澳大利亚才会很有秩序。

同样,在新西兰,报亭既无管理员也不上锁,买报纸的人自行放下钱后拿走报纸。当然某些人可能取走报纸却不付钱(背叛),但由于大家认识到如果每个人都偷窃报纸(共同背叛),会造成以后不方便的有害结果,所以这种情形很少发生。

这个例子的特别之处是,新西兰人并没有被任何其他因素影响而能够脱离囚徒困境。并没有任何人特别去注意报亭,人们守规则是为了避免共同背叛带来的恶果。

这就是脱离囚徒困境的方法之一,要求每个人都诚实而理智。

罗伯特·阿克塞尔罗德在其著作《合作的进化》中,探索了摆脱囚徒困境、获得成功的几个必要条件:

友善。最重要的条件是必须“友善”,这就是说,不要在对手背叛之前先背叛。完全自私的策略仅仅出于自私的原因,也永远不会首先打击其对手。

报复。和上面的条件矛盾是么?虽然要求友善,但是阿克斯洛德主张,成功者必须不是一个盲目乐观者。要始终报复。一个非报复策略的例子是始终合作。这是一个非常糟糕的选择,因为“下流”策略将残酷地剥削这样的傻瓜。

宽恕。成功策略的另一个品质是必须要宽恕。虽然它们不报复,但是如果对手不继续背叛,它们会一再退却到合作。这阻止了报复和反报复的长期进行,最大化了利益。

不嫉妒。最后一个品质是不嫉妒,就是说不去争取得到高于对手的利益。

因此,阿克塞尔罗德得到一种给人以乌托邦印象的结论,认为自私的个人为了其自私的利益会趋向友善、宽恕和不嫉妒。

看起来很不可思议,而且太理性化是吗?事实上也许不是不可能:

1944年的圣诞夜,两个迷了路的美国大兵拖着一个受了伤的兄弟在风雪中敲响了德国西南边境亚尔丁森林中的一栋小木屋的门,他的主人,一个善良的德国女人,轻轻地拉开了门上的插销。

家的温暖在一瞬间拥抱了三个又冷又饿的美国大兵。女主人开始有条不紊地准备着圣诞晚餐,没有丝毫的慌乱与不安,没有丝毫的警惕与敌意。因为她相信自己的直觉:他们只是战场上的敌人,而不是生活中的坏人。美国大兵们静静地坐在炉边烤火,除了燃烧的木柴偶尔发出一两声脆响外,静的几乎可以听见雪花落地的声音。

正在这时候,门又一次被敲响了。站在满心欢喜的女主人面前的,不是来送礼物和祝福的圣诞老人,而是四个同样疲惫不堪的德国士兵。女主人同样用西方人特有的方式告诉她的同胞,这里有几个特殊的客人。今夜,在这栋弥漫着圣诞气息的小木屋里,要么发生一场屠杀,要么一起享用一顿可口的晚餐。在女主人的授意下,德国士兵们垂下枪口,鱼贯进入小木屋,并且顺从地把枪放在墙角。

于是,1944年的圣诞烛火见证了或许是二战史上最为奇特的一幕:一名德国士兵慢慢蹲下身去,开始为一名年轻的美国士兵检查腿上的伤口,尔后扭过去向自己的上司急速地诉说着什么。人性中善良的温情的一面决定了他们的感觉是奇妙而美好的,没有人担心对方会把自己变成邀功请赏的俘虏。第二天,睡梦中醒来的士兵们在同一张地图上指点着,寻找着回到己方阵地的最佳路线,然后握手告别,沿着相反的方向,消失在白茫茫的林海雪原中。

在上面这个故事中,美国士兵和德国士兵可以说是战争的死敌,但是由于受到客观条件的影响,共同陷入了困境。庆幸的是,他们和女主人一起建立了一种和谐的相处关系,并最终一同走出了困境,令人称奇。

因为我们总是会首先考虑自己的利益,所以人与人之间的关系显得不那么友善。但是很多时候,在困境中,人们会摒弃自私的心理,共同合作,达到利益的最大化。