上QQ阅读APP看书，第一时间看更新

第10章纳什均衡与囚徒困境博弈(3)

为了预测这个博弈的结果，我们必须对大猪的理性程度做出进一步的假设。假定大猪不仅自己是理性的，也知道小猪是理性的。作为理性的参与人，小猪不会按。由于大猪知道小猪是理性的，就会知道小猪不会按，因此，大猪的最优选择只能是按。博弈的结局就是：大猪按，小猪不按，各得3单位的净报酬。

从这个例子里面，我们可以进一步提出一个概念——劣战略（dominated strategy）。所谓劣战略是指不论对手选择什么，自己都不会选择的战略。在智猪博弈中，对于参与人小猪来说，“按”就是它的一个劣战略。因为，无论大猪按还是不按，对于小猪，按都不是它的最好选择。因此，如果大猪知道小猪是理性的，就可以把“按”这一战略从小猪的战略集合中去掉。

这时，对于大猪来说，“不按”也变成劣战略了，他也不会使用这一战略。因此，我们可以把这一劣战略再从大猪的战略集合中去掉。

这样一来，我们得到了唯一的最优战略组合是：大猪按，小猪不按。这就是大小猪博弈的战略均衡。寻找这个博弈的均衡的进程，是相继剔除劣战略的过程。所以，这个均衡被称为“重复剔除占优战略均衡”（iterated dominance equilibrium）。

智猪博弈的均衡解在现实中有许多应用。比如说，股份公司中，股东承担着监督经理的职能，但股东中有大股东和小股东之分，他们从监督中得到的收益并不一样。监督经理需要搜集信息，花费时间。在监督成本相同的情况下，大股东从监督中得到的好处显然多于小股东。这里，大股东类似“大猪”，小股东类似“小猪”。均衡结果是，大股东担当起搜集信息、监督经理的责任，小股东则搭大股东的便车。股票市场上炒股票也是如此。股市上有庄家和散户。庄家类似“大猪”，散户类似“小猪”。这时候，“跟庄”是散户的最优选择，而庄家则必须自己搜集信息，进行分析。

市场中大企业与小企业之间的关系也存在类似的问题。进行研究开发，为新产品做广告，对大企业来说是值得的，对小企业来说则可能得不偿失。所以，大企业往往负责创新，而小企业把精力花在模仿上。当然，也有许多技术创新来自小企业。这种现象在“创造性毁灭”的创新中尤为突出，因为大企业存在“锁定效应”，不愿革自己的命。

国际范围的反恐怖主义的活动也类似一个智猪博弈。在全球化时代，恐怖主义已成为一种国际现象，伤害所有的国家。但反恐的成本是很高的，小国尽管也不喜欢恐怖分子，但他们也没有积极性反恐。所以，国际反恐中，一定是大国承担更大的责任（人力、物力），小国搭便车。即大国扮演大猪的角色，小国扮演小猪的角色。随着中国的崛起，国际社会要求中国承担更大的责任，也是这个道理。

国际反恐可以理解为国际范围的公共产品。前面讲公共产品的生产是一个囚徒困境博弈，事实上有些公共产品的生产类似智猪博弈，因为受益者是不对称的，有人受益大，有人受益小。在这种情况下，受益大的人可能有积极性私人生产公共产品，如过去农村一些大户人家就负责本村道路的维修。这也就是说，并不是所有的公共产品都需要政府提供。

社会改革中也有类似的情况。同样的改革给一部分人带来的好处可能比另一部分大得多。这时候，前一部分人比后一部分人更有积极性改革，改革往往就是由这些“大猪”推动的。如改革能创造出更多的“大猪”来，改革的速度就会加快。

3.2理性作为共同知识

分析智猪博弈是一个重复剔除劣战略的过程。具体来说，首先在整个博弈当中，找出某一个参与人的劣战略，把它剔除掉；然后再在剩下的博弈中再找出劣战略并将其剔除；不断进行下去，如果剔除到最后只留下一个战略组合，那么这个战略组合就是我们说的重复剔除占优均衡。这种情况下，我们说这个博弈是重复剔除占优可解博弈。

我们已经看到，预测这样的博弈中每个人会选择什么，我们需要对参与人的理性程度做出更高的要求，仅仅假定每个参与人都是理性的并不能告诉我们均衡结果是怎样的。比如，在智猪博弈中，除了假定大猪和小猪都是理性的外，我们至少还得假定大猪知道小猪是理性的。小猪是理性的，意味着小猪不会选择按。但如果大猪不知道小猪是理性的，大猪仍然不知道如何选择。

但这个博弈对理性程度的要求仍然是很低的，我们甚至不需要假定小猪知道大猪是理性的，因为不论大猪是否理性，小猪都知道自己的最优选择是不按。在许多博弈中，即使假定每个参与人知道其他参与人是理性的，仍然不能告诉我们参与人会如何选择。

为此，我们需要引入理性共识（common knowledge of rationality）的概念，并定义零阶（zero-order）、一阶（first-order）、二阶（second-order），直至无限阶次的理性共识。零阶理性共识：每个人都是理性的，但不知道其他人是否理性；一阶理性共识：除了要求每个人都是理性的，还要求每个人都知道其他人是理性的；二阶理性共识则需要在满足一阶的基础上更进一步：首先每个人是理性的，同时每个人知道其他人是理性的，并且每个人知道其他人知道自己是理性的；依次类推，N阶理性共识，直至无穷阶次的理性共识。

一般讲的理性共识是无穷阶次的理性共识。打个比方，类似一个人前后各有一面镜子，镜子里有无穷个映像。这是博弈论中的一个基本假设，但现实很少达到，这是博弈分析的结果与现实有偏离的一个重要原因。生活中之所以有计谋，就是由于参与人不满足理性共识的要求，否则，博弈的结果是任何人都可以预测的，任何计谋都不可能得逞。比方说，乙很聪明，甲也知道乙很聪明，但是乙不知道甲知道乙很聪明，这种情况下，乙出个计谋骗甲，甲“将计就计”，最后获胜的反倒是甲。在《三国演义》里，诸葛亮很谨慎，司马懿知道诸葛亮很谨慎，诸葛亮也知道司马懿知道诸葛亮很谨慎，但司马懿不知道诸葛亮也知道司马懿知道诸葛亮很谨慎，于是，诸葛亮将计就计，利用比司马懿高一阶的理性共识玩了空城计，取得了胜利。如果乙知道甲知道乙很聪明，乙就知道任何计谋都会被甲识破，乙就不可能有机会被“将计就计”。田忌赛马的故事中，齐王的上中下三匹马均好过田忌的上中下三匹马，但田忌用下马对齐王的上马，上马对齐王的中马，中马对齐王的下马，结果田忌以2∶1获胜。容易看出，田忌之所以能获胜，就是因为齐王不知道田忌聪明，或者说齐王太傻。如果齐王足够聪明的话，只要要求田忌先出马（齐王应该有这个权力），齐王一定可以3∶0获胜。

尽管很少有人能达到无穷阶理性共识，但像齐王这么“傻”的人也不多。为了说明理性共识在重复剔除中的重要性，考虑博弈。在该博弈中，每个人都有三个选择。参与人R的选择为R1，R2，R3；参与人C的选择标记为C1，C2，C3（以后会经常用R表示行，C表示列）。

直观看这个博弈，最诱人的结果是（R3，C3）。但如果每个人都是理性的，（R3，C3）并不会作为均衡结果出现。对此，我们可以分析双方的最优选择。

先考虑R的选择。如果C选择C1，R的最优选择是R1(10>；9>；1)；如果C选择C2，R的最优选择仍然R1(1>；0)；如果C选择C3，R的最优选择是R3(100>；99>；98)。也就是说，无论C选择什么，R都不会选择R2。R2是R的劣战略。

再来看C的选择。如果R选择R1，C的最优反应是选择C2（5>；4）；如果R选择R2，C会选择C1(9>；8>；3)；如果R选R3，C将选择C2(100>；98)。因此，不论R选择什么，理性的C都不会选择C3。C3对C是一个劣战略，也会被剔除掉。

这样，只要每个参与人都是理性的（零阶理性共识），R2和C3就不会被选择。进一步，如果R知道C是理性的，他就知道理性的C不会选择C3，R也就不会选择R3，因为R选择R3的唯一理由是C会选择C3。类似地，如果C知道R是理性的，他就知道理性的R不会选择R2，C也就不会选择C1，因为C选择C1的唯一理由是R会选择R2。也就是说，只要每个参与人满足一阶理性共识，R的最优选择是R1，C的最优选择是C2，分别得到1和5的支付。显然，战略组合(R3，C3)帕累托优于(R1，C2)，也就是说，对每个人都更好。但如果每个参与人满足一阶理性共识的要求，(R3，C3)就不会作为均衡结果出现。

一阶理性只要求每个参与人知道别人也是理性的，这个要求看上去并不是不现实的，毕竟，在现实中，我们一般不会假定别人比自己傻。但也许正因为我们都不傻，也知道别人也不傻，我们才经常干傻事（从结果看），真是聪明反被聪明误。

当然，聪明人并非总是干傻事。

甲肯定不会选择“上”，因为0>；-1（乙选“左”时），3>；2（乙选“右”时），意味着选择“下”总比选择“上”好。乙知道甲是理性的，知道甲不会选择“上”，那么他应该选择的是“右”，因为4>；2。所以（下，右）是一个均衡。在所有4个可能的结果中，（下，右）是帕累托最优的，对双方都是最好的结果。

如果这个博弈的支付稍作修改，甲选择“上”时的收入都增加两个单位，分别从-1变成1，由2变成4，其他的保持不变。直观看，这也许是一件好事，毕竟，双方的处境都没有比原来的博弈下变坏。但很不幸，在新的支付下，甲不会选择“下”，因为“上”是其最优战略。知道甲将选择“上”，乙的最优反应是选择“左”。这时的均衡结果是（1，3）。

从均衡的结果来看，“好事”变成了“坏事”。这个假想的例子也许反映了现实中的一些情况。比如有时候，市场需求扩大，对在位企业来说并不一定是“好事”。在市场规模很小时，别的企业不敢进入，在位的企业往往能够盈利。但市场扩大了之后，其他企业就会进来，竞争使得在位企业的利润反而减少。另一个可能的情况是政府提高最低工资标准对雇员的影响。如果我们把上述博弈中的甲解释为雇员，可以选择“不努力”（上）或“努力”（下）；将乙解释为雇主，可以选择“不雇用”（左）或“雇用”（右）。那么，第一种情况可以理解为在没有最低工资法或最低工资很低的时候，雇员的最优选择是努力，雇主的最优选择是雇用，分别得到3和4的支付。第二种情况可以解释为，当政府实施最低工资法或提高最低工资标准时，雇员的最优选择是不努力，雇主的最优选择是不雇用，分别得到1和3的支付，双方的处境都变坏了。

在上述博弈中，只要参与人满足一阶理性共识，我们就知道博弈的均衡结果是什么。但在有些博弈中，满足一阶理性共识并不能告诉我们参与人会如何选择。每个参与人都有四个选择注意，并不是说博弈里边每一个人都有一样多的选择，有时候可能某个人只有三种选择，对方会有四种，仍假定理性是共同知识。

首先看R的选择：如果C选择C1，R应该选择R1给定对方的选择，参与人的最优反应，在其下方划线表示，下同。；如果C选C2，则R应该选择R2；类似地，C3、C4对应的最优反应分别是R3、R4。显然，R的任何一种选择都是理性的，具体依赖于他如何判断C的选择。

再来看C的选择：如果R选择R1，C会选择C3；如果R选择R2，C会选择C2。R3、R4对应的最优反应分别是C2、C1。

在这个博弈里，无论R选择什么，C都不会选择C4，即C4是C的劣战略。如果R知道C是理性的，R就不再会选择R4，因为R选择R4的唯一理由是C会选择C4，现在R知道理性的C不会选择C4，故也不会选择R4。

进一步，我们知道，C选择C1的唯一理由是R选择R4。如果现在C知道R不会选择R4，C就不会选择C1。所以可以进一步剔除C1。同样的道理，接下来，R会剔除R1。同理可以再依次剔除C3和R3。最后只剩下（C2，R2），双方的收益均为1，这就是前述讲到的重复剔除占优均衡。可以看到，重复剔除占优均衡的求解是根据理性共识一步一步地剔除劣战略，最后得到唯一的均衡结果。一般来说，博弈中参与人的选择越多，对理性共识的要求就越高。

实际上，求解这个均衡要求五阶理性共识：

零阶理性共识：C是理性的，这意味着他不会选择C4；

一阶理性共识：R知道C是理性的，这意味着他知道C不会选C4，故自己也不会选择R4；

二阶理性共识：C知道R知道C是理性的，这意味着C知道R将不会选R4，故自己不应该选择C1；

三阶理性共识：R知道C知道R知道C是理性的，这意味着R知道C不会选C1了，故自己不应该选择R1；

四阶理性共识：C知道R知道C知道R知道C是理性的，这意味着C现在知道R不会选R1了，故自己不应该选C3；

五阶理性共识：R知道C知道R知道C知道R知道C是理性的，这意味着R知道C不会选C3了，故自己不应该选R3。

经过上述推理，最后的结果将是R选择R2，C选择C2。

这样的一个推理过程可能让读者已经都晕倒了。这说明理性共识对于求解和预测一个博弈要求非常高，现实中参加博弈的参与人很难达到这一要求。这也是我们前面提到的很多时候博弈论的理论预测结果和现实中实际结果会有差异的一个主要原因。

第10章 纳什均衡与囚徒困境博弈(3)

第10章纳什均衡与囚徒困境博弈(3)