3.3 防重新谈判均衡_合作博弈引论-QQ阅读男生科幻网

上QQ阅读APP看书，第一时间看更新

3.3 防重新谈判均衡

本节主要关心两人之间的重复博弈问题，看上去它似乎不像两人轮流报价的讨价还价，但是它也是一轮又一轮地进行，在每一轮，博弈的双方都有可能进行谈判，进行讨价还价。

3.3.1 有限重复博弈中再谈判的可能性

完全信息的重复博弈，在每个阶段必须有一个两人之间的策略型博弈，称为阶段博弈。它可以在各个时刻重复实施，首先，我们研究有限次重复的博弈。假设阶段博弈是如图3.1所示的“囚徒困境”型：

图3.1 “囚徒困境”型的阶段博弈

这个博弈有唯一的纳什均衡（L1, L2），其盈利向量为（1,1），拥有有效盈利向量（4,4）的（R1, R2）不是纳什均衡。众所周知，如果重复有限次，那么其子博弈完美均衡是唯一的，那就是，在每个阶段博弈中，各个局中人都采用纳什均衡策略（L1, L2）。后退归纳法很容易验证这个结论。就是说，在任何阶段，两个局中人都不能相互合作达到（R1, R2）。

现在，我们稍微“修改”图3.1中的盈利矩阵，事实上，我们人为地添加了一个纳什均衡，使得阶段博弈具有多个纳什均衡，并且重复两次，人们将看到，这样的模型里，Pareto占优于（L1, L2）的（R1, R2）有了“英雄用武之地”，局中人在博弈的过程中出现了“合作”的前景。“修改”后的盈利矩阵如图3.2所示：

图3.2 对图3.1“修改”后的盈利矩阵

“修改”后的博弈有两个纳什均衡：（L1, L2）和（Q1, Q2）。显然（Q1, Q2）Pareto优于（L1, L2）。有一个合理的假设，在第二阶段博弈开始之前可以观察到第一阶段博弈的结局。根据子博弈完美均衡的要求，作为最后阶段，第二阶段的结局应该是纳什均衡，但是这里出现了两个纳什均衡，局中人可能会根据第一阶段的结果去预测第二阶段究竟会出现哪个纳什均衡。譬如，两个局中人在博弈开始之前进行谈判，双方展现合作的愿望以取得共赢，那么第一阶段的结果无疑取（R1, R2）最为理想，第二阶段的预测就是（Q1, Q2），这是对双方合作诚意和信守承诺的“奖励”。如果谈判失败，那么第一阶段就会偏离理想的（R1, R2）（其实，即使谈判的意向是（R1, R2），在执行中也有可能发生偏离，因为（R1, R2）毕竟不是纳什均衡），此时预测第二阶段的结局是（L1, L2），这是一个效用很差的均衡，作为对双方无合作诚意或缺乏诚信的一种“惩罚”。我们把上述谈判的结果与预测“嵌入”图3.1的阶段博弈的盈利矩阵中去，就是说，在（R1, R2）的格子里加上（Q1, Q2）的盈利（3,3），而在其他8个格子里加上（L1, L2）的盈利（1,1），于是得到如图3.3所示的盈利矩阵：

图3.3 “嵌入”第二阶段预测结果后的盈利矩阵

图3.3如果看成是一个策略型博弈的话，它拥有三个纳什均衡：（L1, L2）,（R1, R2）和（Q1, Q2）。它们分别对应于两次重复博弈的三个子博弈完美均衡：（（L1, L2）,（L1, L2））,（（R1, R2）,（Q1, Q2））和（（Q1, Q2）,（L1, L2））。显然，（（R1, R2）,（Q1, Q2））优于其他两个子博弈完美（（L1, L2）,（L1, L2））和（（Q1, Q2）,（L1, L2）），它们之间存在着“质”的差别，在（（R1, R2）,（Q1, Q2））中体现了第一阶段可以合作。倘若，阶段博弈重复k次，我们很快发现，“合作可以在前k-1个阶段实施，最后阶段仍然实施纳什均衡（Q1, Q2），如果有人在中间某个阶段偏离，那么就毫不留情地‘惩罚’到底”这样的策略剖面构成了子博弈完美均衡。

回到两次重复的情况，一旦观察到第一阶段的结果不是理想的（R1, R2），在第二阶段取（L1, L2）而不取（Q1, Q2）似乎很不理性，局中人有“重新谈判”的激情和动机，毕竟第二阶段取（Q1, Q2）对大家都有好处。于是，在重复博弈中，再谈判出现了可能性，因为“理性”会促使他们认为，过去的“错误”就让它过去吧，大家应该向前看，这样对双方来说，“百利而无一弊”。然而，从博弈理论来看，这个例子中提出“再谈判”是没有现实意义的，如果第二阶段一律取（Q1, Q2）的话，那么“嵌入”第二阶段预测结果都为（Q1, Q2）后的盈利矩阵与原先的阶段博弈有着同样的纳什均衡，在第一阶段谋求合作的“好意”就被破坏了，因为此时（（R1, R2）,（Q1, Q2））不再是两次重复博弈的子博弈完美均衡了，因此作为可信的威胁和承诺，一旦第一阶段偏离合作，第二阶段可供选择的纳什均衡中，不能出现（Q1, Q2），也就是说此时容不得再次讨价还价。这应当算是提出了解决重新谈判问题的一个思路。但是，如上面所说，假如阶段博弈重复k≥3，此时，“在前k-1个阶段实施合作，最后阶段仍然实施纳什均衡（Q1, Q2），如果有人在中间某个阶段偏离，那么就毫不留情地“惩罚”到底，即在以后的所有阶段都是（L1, L2）”的策略剖面构成了子博弈完美均衡。这种情况是否像两次重复一样，再谈判是没有意义的呢？不妨假设k=8，如果某人（譬如局中人1）在第三阶段偏离合作，那么从第四阶段开始，每个局中人在每个阶段都只能得到1。这个时候在第四阶段开始重新谈判似乎又出现曙光，由于“惩罚”使两个人都受到伤害，所以每个人都有动机提出，“过去的事情就让它过去吧，我们何必苦苦折磨自己，从现在开始，我们仍然每个阶段一直相互合作，直到最后阶段取（Q1, Q2）”。如果这样的再谈判能够奏效，“惩罚”也就不再是“冷酷”的，有关惩罚的威胁也是无效的和不可信的，那么我们就不可能指望局中人能够按照最初谈判达成的均衡行事，事实上，也鼓励了局中人的中途背离。看起来，局中人在最初的谈判不应该谈出一个以后可以重新谈判的均衡来，这就是提出“防重新谈判均衡”（renegotiation-proof equilibria）概念的初衷。

下面，我们继续探讨解决重新谈判问题的思路，把前面的盈利矩阵再次人为地扩大，并且仅考虑纯策略纳什均衡。

例3.1 观察如图3.4所示的策略型博弈：

图3.4 再次“扩大”了盈利矩阵的阶段博弈

这个“扩大”了的策略型博弈共有四个纯策略纳什均衡：（L1, L2）,（Q1, Q2）,（P1, P2）和（W1, W2），分别具有盈利向量（1,1）,（3,3）,（4,0.5）和（0.5,4）。比较（L1, L2）与（Q1, Q2），毫无疑问，两个局中人都一致地喜欢（Q1, Q2）甚于喜欢（L1, L2），因为3毕竟比1大，称（Q1, Q2）Pareto优于（L1, L2）。但是，对于（Q1, Q2）,（P1, P2）和（W1, W2）中的任何一个，我们找不到任何纳什均衡（x, y），使得（x, y）Pareto优于（Q1, Q2）,（P1, P2）和（W1, W2）中的任何一个。我们称（Q1, Q2）,（P1, P2）和（W1, W2）为位于图3.4中阶段博弈的纳什均衡盈利集合的Pareto前沿（Pareto frontier）。

假设图3.4中的阶段博弈重复两次，并且假设在第二次博弈开始之前观察到第一阶段的结局。进一步假设局中人预测第二阶段的结局如下（这仍然可以看做是经过谈判达成的协议）：

如果第一阶段的结局是（R1, R2）（它仍然是新的阶段博弈中唯一令双方都很满意的结局，但是它不是阶段博弈的纳什均衡），那么第二阶段的结局为（Q1, Q2）；

如果第一阶段的结局是（R1, y）, y是除了R2之外的局中人2的任何策略（意味着局中人2在第一阶段偏离了（R1, R2）），那么第二阶段的结局为（P1, P2）（表示局中人2由于在第一阶段的偏离而在第二阶段受到惩罚，他只能得到0.5，而局中人1得到4）；

如果第一阶段的结局是（x, R2）, x是除了R1之外的局中人1的任何策略（局中人1在第一阶段偏离了（R1, R2）），那么第二阶段的结局为（W1, W2）（表示局中人1由于在第一阶段的偏离而在第二阶段受到惩罚，他只能得到0.5，而局中人2得到4）；

如果第一阶段的结局是（x, y），其中x是除了R1之外的局中人1的任何策略，y是除了R2之外的局中人2的任何策略（意味着双方同时偏离（R1, R2）），那么，第二阶段的结局为（Q1, Q2）。

把第二阶段得到的盈利“嵌入”图3.4的阶段博弈中去，例如，对于最后一个剖面的描述，我们只要在图3.4的那些“既非R1，又非R2”的格子里各别加上（Q1, Q2）的盈利（3,3）。根据这种办法，可以得到一个“合二为一”的盈利矩阵（见图3.5）：

图3.5 根据谈判协议构成的“合二为一”的盈利矩阵

图3.5告诉我们，如果将图3.5看做一个策略型博弈的盈利矩阵，易见（L1, L2）,（R1, R2）与（Q1, Q2）是这个“新”博弈的三个纯策略纳什均衡，根据图3.2的构造方法，我们知道它们分别表示两阶段重复博弈的三个策略剖面：{（L1, L2）,（Q1, Q2）}, {（R1, R2）,（Q1, Q2）}与{（Q1, Q2）,（Q1, Q2）}。因此，这三个策略剖面都是子博弈完美均衡。图3.2中的盈利显示，{（R1, R2）,（Q1, Q2）}优于其他两个子博弈完美均衡。{（R1, R2）,（Q1, Q2）}在所有的（纯策略）子博弈完美均衡集中是Pareto占优的，它在最后一个阶段博弈中的“策略对”（Q1, Q2）又位于阶段博弈的纳什均衡集的Pareto前沿，我们“暂且”称这样的策略剖面为Pareto完美的。有关Pareto完美的具体定义将在稍后给出。

在这个例子里，两个局中人经过谈判达成协议，最理想的结果是{（R1, R2）,（Q1, Q2）}，因为它使每个局中人得到的总盈利最多。这里不会发生前面所说的局中人有“再谈判”的动机问题，之所以不会出现再谈判的问题，是因为惩罚的“内容”中没有那个“劣势”的纳什均衡（L1, L2）。无论是惩罚或者奖励，采用的都是处于Pareto前沿的纳什均衡，这样一来，重新谈判的要求不会得到另外一方的响应。如果发生某个局中人在第一阶段偏离，那么在第二阶段的（W1, W2）（或者（P1, P2））分别是对偏离的局中人1（或者局中人2）惩罚；但是，在双方同时犯“错误”时，也可以协商在第二阶段取（Q1, Q2）作为补偿而不是惩罚，这种场合下没有一个人会要求重新谈判。因为，在惩罚单个偏离者的同时又对“遵守诺言的老实人”给予了奖励，这样再也不存在“老实人”在第二阶段喜欢别的均衡的问题，也就是说，“遵守诺言的老实人”不会被说服去重新谈判第二阶段采取什么样行动的问题。这个子博弈完美均衡防止了重新谈判的可能，看来与赏罚分明有关，而要做到赏罚分明，跟惩罚的结果是否采用处于Pareto前沿的纳什均衡有关，因为此时惩罚者不会同意被惩罚者的重新谈判要求。

3.3.2 Pareto完美均衡

在上面小节里提出了重复博弈中可能出现的再谈判问题，也涉及再谈判问题的解决思路。不难发现，所举的例子中，博弈的解的确防止了再谈判的发生。它们有两个共同特点：其一是“承诺与威胁”是可信的，并且保证谋求合作共赢的策略剖面是子博弈完美均衡；其二是局中人通过谈判得到的子博弈完美均衡在各个子博弈中的相应部分都至少是Pareto有效的。譬如，最简单平凡的一次阶段博弈，那么博弈之前双方谈判的结果应该是Pareto占优的纳什均衡，肯定不会是劣的纳什均衡；如果是两次重复博弈，那么，它的防止再谈判发生的均衡是一个满足如下条件子博弈完美均衡：首先它在最后阶段博弈中也是防重新谈判的均衡，即阶段博弈的Pareto占优纳什均衡，其次，不存在其他的子博弈完美均衡对于两个人来说都与这个均衡一样好或甚至更好（并且至少有一人严格地更好）。这些思路启发了人们如何去建立“防重新谈判均衡”的概念。为了使子博弈完美均衡是防重新谈判的均衡，我们必须对均衡施加一些限制和约束，例如，它一定是子博弈完美均衡，而且它在后继的子博弈中一定也是能够防重新谈判的。Bernheim-Peleg-Whinston提出的“Pareto完美”也许在众多防重新谈判均衡中是最有效的之一，它将Pareto占优与子博弈完美的逻辑巧妙地结合在一起。

首先，引入若干必要的记号。对于n维欧氏空间ℜn中的任意集合C，记号Eff（C）表示C中强有效点的集合，即，这些点x满足如下条件：对任何的x∈C，不存在y∈C且y≠x，使得y≥x。

Bernheim-Peleg-Whinston使用递归的方法给出了下面的定义：

定义3.1 （Bernheim-Peleg-Whinston）对于给定的（策略型）博弈G，令GT表示以G为阶段博弈的T次重复博弈，再以PT表示GT的所有纯策略子博弈完美均衡的盈利的集合。特殊地，令Q1=P1和R1=Eff（P1）。对于T＞1，令QT⊆PT，表示这样的纯策略子博弈完美均衡的盈利集合，它可以通过在第二阶段开始的子博弈，利用纯策略子博弈完美均衡盈利集合PT-1中的强有效后续盈利RT-1，用后退的逻辑推理方法获得，这里的RT-1=Eff（PT-1）。我们称GT的一个子博弈完美均衡σ为Pareto完美的，它必须满足如下条件：对于每个时刻t以及历史ht，在σ下的后续盈利在RT-t内（其实，这相当于要求，子博弈完美均衡在每个子博弈中相应策略剖面的后续盈利都是强有效的）。

从前面的分析和定义3.1可知，Pareto完美的均衡看来是防重新谈判均衡。

在例3.1中，P1={（1,1）,（3,3）,（4,0.5）,（0.5,4）} =Q1，由于（1,1）＜（3,3），因此从P1中去掉（1,1）之后，得到R1=Eff（P1）={（3,3）,（4,0.5）,（0.5,4）}。例3.1是一个二次重复博弈，所以，T最多为2, P2={（4,4）,（7,7）,（6,6）} =Q2和R2=（7,7）。当t=1时，历史h1=（R1, R2），其后续盈利（3,3）∈R1，可见{（R1, R2）,（Q1, Q2）}满足定义3.1，因此{（R1, R2）,（Q1, Q2）}是Pareto完美的，我们已经知道，它是一个防重新谈判的均0衡。

再来观察一个相当典型的例子：

例3.2 考虑图3.6所示的阶段博弈：有一个Pareto完美均衡，于是按照Pareto完美的定义，在第一阶段不可能合作实施对双方都好的（a4, b4），只能发生三个纯策略纳什均衡（a2, b1）,（a1, b2）和（a3, b3）中的某一个，也就是说，必定有Q3=R3={（12,10）,（11,11）,（10,12）}。有趣的是，如果把阶段博弈重复四次，Q3有三个元素，所以在第一阶段又可以互相合作实施（a4, b4）了。从递归的角度，不难明白，当T为奇数时，RT有三个元素（当然，随着T的增加，三个盈利向量中的数值元也在增加），当T为偶数时，RT就只有一个元素。于是，在本例中，如果阶段博弈重复T次，当T为任意偶数时，博弈存在唯一的Pareto完美均衡，它也是防重新谈判均衡，其构成为，在每个奇数时刻，两个局中人互相合作，都选择（a4, b4），而在每个偶数时刻，则视局中人在前一阶段是否有偏离行为，如果局中人在前一阶段取（a4, b4），表明他们互相合作，那么在这一阶段就取（a3, b3）；如果局中人在前一阶段取（a4, b1），表明局中人2偏离，那么在这一阶段就取（a2, b1），以惩罚局中人2；如果局中人在前一阶段取（a1, b4），表明局中人1偏离，那么在这一阶段就取（a1, b2），以惩罚局中人1；如果局中人在前一阶段取其他可能的行动，那么在这一阶段就取（a2, b1）、（a1, b2）和（a3, b3）中的某一个（在我们的叙述中，不妨仍取（a3, b3），因为双方都犯错误，处理应当公正一些，不过在T=1时应该还是（a2, b1）、（a1, b2）和（a3, b3）中的某一个）。在这样的均衡中，每个奇数时刻的盈利为（5,5）的概率等于1，每个偶数时刻的期望盈利为（3,3）。所以每个局中人在T为偶数的重复博弈中得到的期望盈利为4T。

图3.6 有限重复博弈中的一个阶段博弈

这个阶段博弈有三个纯策略纳什均衡：（a2, b1）,（a1, b2）和（a3, b3），更“有效”的（a4, b4）不是纳什均衡。所以，R1={（4,2）,（2,4）,（3,3）}。在贴现因子δ=1的前提下考虑两次重复博弈G2。由于最后一个阶段有三个纯策略纳什均衡，所以在第一阶段显露了“合作”的曙光，可以得到盈利（5,5），因为一旦有人偏离，就可以用不同的阶段均衡进行惩罚。显然，（a2, b1）的（4,2）可以用来惩罚局中人2的偏离，（a1, b2）的（2,4）可以用来惩罚局中人1的偏离，如果双方都信守诺言，那么（a3, b3）无疑是个公正的选择，倘若两个人都“违规”了，也只好公正处理，得到（3,3）。把上述说法“嵌入”图3.6，得到如图3.7所示的两次重复博弈的盈利矩阵：

图3.7 “嵌入”后的盈利矩阵

对于G2，纯策略纳什均衡为（a2, b1）,（a1, b2）,（a3, b3）和（a4, b4），因此我们有P2={（7, 5）,（5,7）,（6,6）,（8,8）}，从而R2=Eff（P2）=（8,8），它是单点集。同前面的例3.1一样可知，{（a4, b4）,（a3, b3）}是Pareto完美均衡。然而，G3的情况就有所不同，由于G2只

注意一个重要的事实，上述子博弈完美均衡在所有子博弈完美均衡的集合中并不是Pareto有效的，读者可以容易地找到另外一个子博弈完美均衡Pareto优于我们叙述的这个子博弈完美均衡，但是，我们叙述的这个子博弈完美均衡是Pareto完美的，所以也是防重新谈判均衡，而其他的子博弈完美均衡不是防重新谈判均衡！

3.3.3 无限重复博弈的防重新谈判均衡

在阐述有限重复博弈中的Pareto完美概念时，使用了递归的手法。Pareto完美性和递归有效性都有点借助“后退归纳”的味道。而在处理无限重复博弈的Pareto完美时，理所当然地无法使用“后退归纳”的逻辑推理。对于无限重复博弈中的防重新谈判和Pareto完美的定义看来要重起炉灶。本书介绍的“弱防重新谈判”（记为WRP）是由Farrell与Maskin于1989年所提出的一个概念。在介绍这个概念之前，我们不妨通过一个简单的例子以获得一些想法。

例3.3 设想形如下面的囚徒困境形阶段博弈无限次地重复

众所周知，这个阶段博弈具有唯一的静态纳什均衡（D, D）（即双方都背叛）。每个阶段“总是背叛”是无限重复博弈的子博弈完美均衡，它的盈利向量是（0,0）。在“总是背叛”这个策略剖面中，任何一个时刻（即任何一个阶段）以后的行动仍然是“总是背叛”，并且由这个策略剖面所产生的后续盈利总是（0,0）。可见，沿着这个策略剖面，谈不上什么“重新谈判”，因为在这个策略剖面的任何时刻，重新谈判仍然走到“总是背叛”的老路，得到的依然是（0,0）。

但是，在这个无限重复囚徒困境的博弈中，不是所有的子博弈完美均衡都像“总是背叛”那样地不存在“重新谈判”的可能。譬如，冷酷触发策略：“最初两人进行合作，一旦有人偏离合作，则实施惩罚使得以后永远地回到静态纳什均衡（D, D）”是子博弈完美均衡。然而，双方合作带来的盈利显然Pareto优于惩罚状态（D, D）的盈利，这个事实激励局中人“重新谈判”以使得可以从无休止的惩罚回到合作状态，这对大家都有利。这个策略剖面从一开始就考虑到了“总是合作”的情况，这是一个对双方最有利的途径，大家得到自己满意的盈利。如果发生偏离就“以后永远地回到静态纳什均衡（D, D）”所得到的后续盈利与“回到合作状态”所得到的后续盈利完全不一样，后者高得多。于是，就出现了通过重新谈判回到“总是合作”的可能性。

例3.3展示了两个子博弈完美均衡的策略剖面，一个是可以防止重新谈判的，一个却是无法防重新谈判的。仔细地分析，这与均衡策略的盈利很有关系。在“总是背叛”的策略剖面中，其盈利向量（0,0）是个单点集合。无论从哪个历史t开始的后续盈利依然是对应于原来均衡的盈利（0,0），因此从盈利的角度，没有必要再进行有关策略行动的谈判。但是，在冷酷触发策略剖面中，由于一开始采取的是合作策略，因此我们的“合作协议”的可能盈利包含了“总是合作”所带来的收益，也包含了发生偏离之后惩罚到底的均衡收益。无休止的惩罚总是不如“总是合作”来得好，所以局中人愿意重新谈判以回到“总是合作”的状态。

“弱防重新谈判”思想的出发点是根据某种“外因”（事实上，我们是根据子博弈完美均衡）来“人为”地构造均衡盈利集Q, Q在任意时刻t和任何历史ht都是可以达到的（之所以从子博弈完美均衡出发，是因为在无限重复博弈中，我们总是以子博弈完美均衡作为问题的解或预测，现在要处理的问题是，在这样的子博弈完美均衡策略剖面中，局中人是否会受到鼓励去要求进行重新谈判）。Q中的每个盈利必须对应于Q中的某个均衡的后续盈利。如果在这样构造的Q中，没有一个均衡盈利Pareto劣于Q中的另一个均衡盈利，我们称这样的盈利集合Q为弱防重新谈判的，即Q为WRP。例3.3中的单点集（0, 0）是WRP。因为在任何时刻“总是背叛”的后续盈利都是（0,0）。而根据冷酷触发策略剖面所构造的盈利集合Q不是WRP，因为“总是合作”优于无休止的惩罚。

现在，再来看另外一个策略剖面：“在第一个周期取C，在往后的周期中，如果上一个周期的结局是（C, C）或者（D, D），那么就取策略C；如果上一个周期的结局是（C, D）或者（D, C），那么就取D”。这个策略剖面与一般的“针锋相对”策略明显地有所不同，我们称它为“完美针锋相对”。根据这个策略剖面所构造的盈利集Q不是WRP，因为在发生单方面偏离之后的下一个周期中，不理睬偏离而采取（C, C）将会更有效。

在前面，我们提到“总是合作”似乎总是比别的策略好，那么我们的策略就干脆取“总是合作”而不是冷酷触发，是否会是WRP呢？这里，我们先注意到一个事实，只要局中人有充分的耐心（即贴现因子δ充分接近于1），那么“总是合作”其实是子博弈完美均衡。1989年Farrell与Maskin以及Damme证明了，如果贴现因子δ充分接近于1，“总是合作”是无限重复囚徒困境中的WRP结局。事实上，对于无限重复囚徒困境，无名氏定理以防重新谈判的形式成立。特别地，两个囚徒采用“赎罪”策略的策略剖面是WRP并且具有有效盈利。这个策略剖面中的策略具体描述为：“从双方都取C开始。如果单个局中人i偏离到D，那么就转向对i的惩罚状态，在这个惩罚状态中，局中人i取C而另外一个局中人j取D（这样i得到-1而j得到3，于是形成了对i的惩罚），这个惩罚状态一直延续下去直到第一次出现由局中人i取C而博弈回到了合作状态时为止。”

这个策略剖面的结局是WRP的验证，首先需要考虑它是否子博弈完美均衡。要做到这一点，只要验证，在合作状态，任何一个局中人的偏离将触发惩罚周期，当贴现因子δ充分接近于1时，不会给自己带来好处。譬如，（假设）局中人1偏离合作状态，那么他将承受一个周期的惩罚，倘若他甘愿承受惩罚并在之后回到合作状态，我们可以计算从接受惩罚周期起的持续总盈利为

因此，他的平均持续盈利为

但是，如果局中人1并不“顺从”，再坚持偏离一次，于是结局为（D, D）,（C, D）和以后永远的合作状态，那么可以计算得到他的平均持续盈利为

只要δ≠1，式（3.37）最后的不等式严格地成立。这表明，局中人1坚持偏离不如老老实实地回到合作状态。

那么，当局中人1偏离时，局中人2是否会偏离“赎罪”的策略剖面而不去惩罚局中人1呢？我们来计算局中人2两种态度的平均持续盈利。

当局中人1偏离并受到惩罚时，局中人2的平均持续盈利为

如果局中人2不去惩罚局中人1，而局中人1则在背叛之后立即回到合作状态，此时局中人2的平均持续盈利为

显然，只要δ≠1，有3-δ＞2。可见，为了最大化自己的利益，局中人2应该按照策略剖面的规定去惩罚局中人1。

综上所述，我们利用了“一步偏离准则”证明了“赎罪”的策略剖面是子博弈完美均衡。

现在我们试图证明“赎罪”策略剖面的盈利集是WRP，这是一件非常简单的事情。注意到对任意时刻t和历史ht，无非有三种（后续）情况：要么是合作状态；要么局中人1偏离；要么局中人2偏离。对应于这三类子博弈的平均持续盈利分别为（2,2）,（3δ-1, 3-δ）与（3-δ,3δ-1），当δ≠1时，有3-δ＞2和3δ-1＜2，因此这三个盈利之间没有一个Pareto优（或者劣）于另一个的现象。所以，按照WRP的定义，“赎罪”策略剖面的盈利集是WRP。

在无限重复囚徒困境中得到上述有效WRP盈利的关键是使用（C, D）惩罚了偏离的局中人，而惩罚者又从中得到了奖励。在其他的某些博弈中，在奖励和惩罚的两个局中人之间可能存在着交易，这可以阻止整个有效个体理性盈利集成为WRP。这里我们不准备讨论如此复杂的情况。

既然有“弱防重新谈判”的概念出现，想必也会有“强防重新谈判”（SRT）。如果盈利集合Q是WRP，并且不存在“拥有一个盈利Pareto严格优于Q中的任何盈利”的其他WRP集合，那么我们称Q为“强防重新谈判”的。本书不讨论有关“强防重新谈判”的盈利集合，因为它不但“粗糙”“复杂”，而且连“存在性”也有问题。

本周热推：

世界民族经济与文化产业研究贫困与国家转型：基于中亚五国的实证研究海外调研集萃（第1辑）中韩（盐城）产业园探索：“一带一路”交汇点建设 “一带一路”与亚洲一体化模式的重构