2.2 博弈类型
2.2.1 完全信息静态博弈
在国内外学者发表的文献中,若只说明是基于博弈论方法,而未说明具体的博弈类型,那么这种博弈类型实际上就是零和的完全信息静态博弈(Complete Information Static Game)。完全信息静态博弈就是各参与者同时决策,且所有参与者对各方支付都了解的博弈。完全信息静态博弈通常使用标准式描述,包含3个方面的信息:①博弈参与者集合;②每个参与者的策略空间;③每个参与者的支付函数[16]。
与完全信息静态博弈对应的均衡就是最常说的纳什均衡[17]。纳什均衡实际上描述的是一种策略集,在这个策略集中,每一个参与者都确信,在给定对方策略的情况下,他选择了最好的策略。也就是说,参与者双方都认为自己现有的策略是最好的策略,因此,在对方不改变策略的前提下,任何一方都不会调整自己的策略;否则,率先改变策略的一方将减少对应的效用值。
判断一个结果是不是纳什均衡的通常办法是看参与者是否可以通过单方面的背离而获得更多的效用。如果还有其他的策略可以让任何一个参与者得到更多的效用,那么他一定会丢弃现在的策略组合,也就是说,现在的策略组合是不稳定的。实际上,纳什均衡是完全信息静态博弈的解,构成纳什均衡的策略一定是重复剔除严格劣策略过程中不能被剔除的策略;也就是说,没有一种策略能严格优于纳什均衡策略[19]。
需要注意的是,纳什均衡包括纯策略纳什均衡(Pure-strategy Nash Equilibrium)和混合策略纳什均衡(Mixed-strategy Nash Equilibrium)。纳什在他1950年的经典论文中,证明了混合策略纳什均衡普遍存在于不同的博弈类型中,指出每一个有限次博弈都至少存在一个混合策略纳什均衡[15]。
2.2.2 完全且完美信息动态博弈
在完全且完美信息动态博弈(Complete and Perfect Information Dynamic Game)中,各参与者不是同时而是先后选择策略,每个参与者需要考虑如果采取这个策略,那么对方将如何应对该策略,同时还需要考虑当前采取的策略将如何影响自己及对手将来如何选择策略。这一特点使得完全且完美信息动态博弈的表示常使用扩展式博弈树描述。与支付矩阵表示法相比,扩展式博弈树扩展了参与者的策略空间,即某个参与者在什么时候行动、每次行动可选择哪些策略以及当前知道哪些信息。
完全且完美信息动态博弈中各个参与者策略选择的先后顺序形成了连续的博弈过程,其中各参与者的一次选择行为称为一个“阶段”。如果完全且完美信息动态博弈的几个参与者同时选择策略,那么这些参与者的同时选择也构成一个“阶段”。一个完全且完美信息动态博弈至少包含两个“阶段”,因此常把完全且完美信息动态博弈也称为“多阶段博弈”[19]。完全且完美信息动态博弈也被称为“序贯博弈”,这是从各参与者选择策略有时间先后方面进行考虑的。完全且完美信息动态博弈还被称为“扩展博弈”,这是因为完全且完美信息动态博弈常采用扩展式博弈树来表示各参与者的选择次序和各博弈阶段。
一个完全且完美信息动态博弈包含6个方面的信息:①博弈参与者集合;②参与者的行动顺序;③每次轮到某参与者行动时,可供他选择的行动;④每次轮到某参与者行动时,他了解到的信息;⑤各个参与者选择不同的行动组合后对应的支付;⑥虚拟参与者“自然”可能选择的概率分布[16]。
与完全且完美信息动态博弈相关的均衡是“子博弈完美纳什均衡”(Subgame Perfect Nash Equilibrium)和“颤抖手完美均衡”(Trembling Hand Perfect Equilibrium)[15]。经典的模型包括斯坦克博格(Stackelberg)模型[22]、讨价还价(Bargaining)模型[23]、委托人—代理人模型[15]。其中“子博弈”由一个完全且完美信息动态博弈第一阶段后的任一阶段开始的后续“阶段博弈”构成,能够自成一个博弈,包含有初始信息集和进行博弈所需要的全部信息[19]。类似地,一个“子博弈”还可以包含下一级“子博弈”。需要注意的是,完全且完美信息动态博弈本身不是它自己的一个“子博弈”,这与集合的性质不同。另外,“子博弈”不能分割初始信息集且必须包含第一个阶段后的所有“阶段博弈”。要使一个“策略对”成为“子博弈完美纳什均衡”,必须要求它首先是原完全且完美信息动态博弈的纳什均衡,其次在完全且完美信息动态博弈的所有“子博弈”中都构成纳什均衡。与纳什均衡不同的是,“子博弈完美纳什均衡”能够排除均衡策略中不可信的威胁或承诺,排除不稳定、不合理的纳什均衡,留下真正稳定的纳什均衡[19]。而“颤抖手完美均衡”是对纳什均衡的一个改进,研究每个参与者都有可能犯错误前提下的纳什均衡。它要求参与者采用的策略,不仅在其他参与者不犯错误时是最优的,而且在其他参与者偶尔犯错误时仍然是最优的[19]。因此,“颤抖手完美均衡”是一种相当稳定的纳什均衡。
2.2.3 重复博弈
重复博弈(Repeated Game)指重复进行基本博弈而构成的博弈过程。通常研究的大多数重复博弈是静态博弈的重复,其中的每次博弈被称为“阶段博弈”,而重复博弈又是一个动态过程,属于动态博弈的范畴,因此重复博弈与静态博弈和动态博弈都有关系[24]。虽然重复博弈形式上是原基本博弈的反复,但参与者的行动和博弈结果却不一定是原基本博弈的简单重复。如果参与者的行动在每个“阶段博弈”后都可被观察到,那么参与者就可能参考其他参与者前面的博弈行为来选择自己的策略,这样就可能导致不同的均衡结果,所以,不能简单地把重复博弈看成是原基本博弈的线性累加。
重复博弈根据重复原基本博弈的次数常可分为“有限次重复博弈”和“无限次重复博弈”[19]。显然,“有限次重复博弈”表示博弈重复次数有限,且有预定的结束时间,而“无限次重复博弈”表示无限次地重复原基本博弈。另外需要注意的是,还有一种称为“随机结束重复博弈”的重复博弈,它的博弈重复次数是有限的但博弈结束的时间和具体的博弈重复次数却是不确定的。
与独立的单次静态博弈和动态博弈不同,在重复博弈中每个参与者在每个阶段都需要进行可能不同的策略选择,这是因为各参与者在前面阶段的博弈中的策略已成为共同知识,参与者可以在此基础上进行策略选择。与动态博弈类似地是,重复博弈也有“子博弈”的概念。这些“阶段子博弈”就是从某个阶段(不包括第一阶段)开始,直到最后一个阶段的所有“阶段博弈”。与原来的重复博弈相比较,“子博弈”要么是重复次数减少的重复博弈,要么仍是原来的重复博弈(对无限次重复博弈而言)。
重复博弈的效用与单次静态博弈和动态博弈不同,它不是整个重复博弈结束后的一个总的效用,而应包含博弈过程的每个“阶段博弈”中产生的效用。对于“有限次重复博弈”,一种计算重复博弈效用的方法是累加参与者在各“阶段博弈”中的效用,简称“总效用”法;另一种方法是将总效用除以重复次数,即“平均效用”法。而对“无限次重复博弈”,由于不同时间获得的利益对参与者的价值是不相同的,因此常引入“贴现系数”将后一“阶段博弈”的效用折算成当前阶段的效用。
2.2.4 不完全信息静态博弈
不完全信息静态博弈(Incomplete Information Static Game)又称静态贝叶斯博弈,这里的不完全信息并不是完全没有信息,不完全信息静态博弈的参与者至少必须有关于其他参与者支付的可能范围和分布概率的知识;否则参与者的决策就会完全失去依据[16]。实际上,在不完全信息静态博弈中,各参与者都知道自己的效用函数,但不能确切地知道其他参与者的效用函数。另外,虽然参与者不能确定其他参与者在相应策略下的效用,但知道其他参与者有哪些可能的效用结果,而具体哪种效用结果会出现则取决于参与者属于哪种“类型”。这些“类型”是参与者自己清楚但其他参与者无法知道的个人信息,即非共同知识。因此,在求解不完全信息静态博弈时,常把博弈过程中参与者对其他参与者效用的不了解转化成对这些参与者“类型”的不了解,也就是说,在分析不完全信息静态博弈时,就必须把关注各参与者的效用转向各参与者的“类型”及采取的策略组合[19]。
不完全信息静态博弈使用标准式描述,与完全信息静态博弈不同的是它包括5个方面的信息:①博弈参与者集合;②参与者的类型空间;③参与者在知道自己类型的条件下,对其他参与者的类型组合推断;④依赖于类型的策略空间;⑤依赖于类型的支付函数[16]。
通过海萨尼(Harsanyi)转换引入虚拟参与者“自然”并将静态博弈赋予时间顺序,可以把不完全信息静态博弈转化为完全信息动态博弈,然后就可以利用完全信息动态博弈的处理方法实现不完全信息静态博弈的分析。因此,不完全信息静态博弈可以看作是先由“自然”选择各参与者的类型,然后再由各参与者同时进行策略选择的动态博弈,这样不完全信息静态博弈中各参与者的一个策略实际上就是针对自己各种可能的类型如何进行选择的问题。所以,不完全信息静态博弈中参与者的策略是关于类型空间和行动空间的函数,所有的这些函数构成了参与者的策略空间[19]。
由不完全信息静态博弈得到的均衡概念称为贝叶斯均衡(Bayesian Equilibrium)。在一个有限不完全信息静态博弈中,必定存在贝叶斯均衡或混合策略贝叶斯均衡。这种贝叶斯均衡概念意味着参与者的行动是同时发生的,没有时间先后顺序,因此,没有任何参与者能够有机会观察其他参与者的选择。在给定其他参与者的策略前提下,每个参与者的最优策略实际上依赖于自己的类型。每个参与者虽然不知道其他参与者真正选择了什么策略,但只要知道其他参与者的类型的概率分布,就能够正确地预测出其他参与者的策略选择与各自类型之间的关系。所以,不完全信息静态博弈中各参与者选择策略的依据就是在给定自己类型和其他参与者的类型与策略选择之间关系的前提下,使得自己的期望支付达到最大化[19]。
2.2.5 完全但不完美信息动态博弈
完全但不完美信息动态博弈(Complete but Imperfect Information Dynamic Game)研究的博弈情况具有以下特征:①各参与者在博弈结束时完全清楚每个参与者的效用;②后行动的参与者无法或部分看到自己选择策略之前的博弈过程,或者不同的参与者掌握的博弈进程信息有差异,再或者各参与者有多次策略选择,但无法观察到前面的博弈进程[19]。完全但不完美信息动态博弈的表示仍使用扩展式博弈树描述。
与完全但不完美信息动态博弈相关的均衡概念称“完美贝叶斯均衡”(Perfect Bayesian Equilibrium)。一个“完美贝叶斯均衡”必须要满足以下要求:①在各个信息集中,轮到策略选择的参与者必须具有一个“推断”(Belief)值来确定博弈到达信息集中各个节点的可能性。对多节点信息集,“推断”值就是到达信息集中各个节点的概率分布,而对单节点信息集,则“推断”值对应的概率为1;②给定各参与者的“推断”值,则选择的策略应是“序列理性”(Sequentially Rational)的,也就是说,给定轮到策略选择的参与者的“推断”值,则该参与者在接下来的策略选择中必须使自己的效用最大;③若信息集在均衡路径上,则“推断”值由各参与者的均衡策略和贝叶斯法则共同确定;④若信息集不在均衡路径上,则“推断”值由各参与者可能有的均衡策略和贝叶斯法则共同确定[19]。
上述涉及的纳什均衡、“子博弈完美纳什均衡”和“完美贝叶斯均衡”具有内在联系。“子博弈完美纳什均衡”是“完美贝叶斯均衡”的特例,也就是说,“完美贝叶斯均衡”在完全且完美信息动态博弈中就是“子博弈完美纳什均衡”[19]。而在静态博弈中,完美贝叶斯均衡就是纳什均衡。
2.2.6 不完全信息动态博弈
不完全信息动态博弈(Incomplete Information Dynamic Game)又称“动态贝叶斯博弈”(Dynamic Bayesian Game)。与不完全信息静态博弈相比,不完全信息动态博弈中的博弈有时间先后顺序,后参与者可以通过观察先参与者的行动,获得有关先参与者的信息,从而修正或证实自己对先参与者的策略。与不完全信息静态博弈类似,通过海萨尼转换方法,不完全信息动态博弈可以转变为完全但不完美信息动态博弈[19]。
在不完全信息动态博弈中,首先,“自然”选择参与者的类型,并将类型告诉参与者自己,但不告诉其他参与者,只将类型分布告诉其他参与者;在“自然”选择之后,参与者开始行动并有先后顺序,后行动者能观察到先行动者的行动,而不能观察到先行动者的类型[16]。但是,因为参与者的行动依赖于类型,每个参与者的行动都向后行动者传递着有关自己类型的某种信息,后行动者可以通过观察先行动者所选择的行动来推断先行动者的类型或修正对先行动者类型的“先验推断”(Prior Belief),其实质是一种概率分布,然后,根据这一“推断”值选择自己的最优行动[16]。然而,先行动者并不是消极地选择行动,他预测到自己的行动将被后行动者所利用,就会设法选择传递对自己最有利的信息,避免传递对自己不利的信息[16]。这样,博弈过程不仅是参与者选择行动的过程,还是参与者不断调整“推断”值的过程。
由于不完全信息动态博弈通过海萨尼转换方法可以转变为完全但不完美信息动态博弈,因此与不完全信息动态博弈相关的均衡概念也是“完美贝叶斯均衡”,它汲取了“子博弈完美纳什均衡”和“贝叶斯均衡”的精华,是“贝叶斯均衡”、“子博弈完美均衡”和“贝叶斯推断”的结合[16]。
声明博弈是一类特殊的不完全信息动态博弈模型,这种博弈模型主要研究在有私人信息、信息不对称的情况下,人们采用口头或书面的声明来传递信息的博弈问题[15]。信号博弈是一种一般的具有信息传递机制作用的不完全信息动态博弈模型,它的基本特征是博弈方分为信息发出方和信号接收方两类,先行动的信号发出方的行为对后行动的信号接收方来说,具有传递信息的作用[25,26]。
2.2.7 合作博弈
合作博弈(Cooperation Game)和非合作博弈是博弈论中最基本的一种分类,它们主要根据参与者的行为逻辑差别进行区分。一般地,将允许存在约束力协议的博弈称为合作博弈,而不存在有约束力协议的博弈称为非合作博弈[24]。前面介绍的博弈类型都属于非合作博弈的范畴。
事实上,合作博弈中存在有约束力的协议,这说明了参与合作博弈中的参与者之间存在共同利益,但这些利益又不完全一致。因为如果参与者之间利益完全一致或完全对立,就不需要协调或没有协调的余地,那就可以用个体理性决策(即通过非合作博弈)解决问题,那样就不再需要什么协议。因此,只有在参与者之间既存在不完全一致但又有共同利益的情况下,才可能需要利用协议来约束行动以实现更大的自身和共同利益[17]。由于利益不完全一致,又进一步决定了利益的分配,并促进善于利益分割的讨价还价(Bargain)的形成。实际上,合作博弈协议的内容除了利益分配以外就是约定具体的行动,而要达成协议的前提就是通过讨价还价在利益分配方面达成一致[17]。因此,不管合作博弈问题来源于经济交易、合作还是竞争,也不管参与博弈的人数多少,本质上都是关于利益分割的讨价还价[27]。
2.2.8 信号博弈
信号博弈(Signaling Game)实质是一种具有信息传递机制的不完全信息动态博弈。在一个信号博弈中,有两个参与者S和R,分别称为信号发送者(Sender,S)和信号接收者(Receiver,R)。他们在博弈时将先后选择自己的动作,其中参与者S的类型是私有信息,参与者R只有一个类型,且为共同信息。这就是说,参与者R具有不完全信息且参与者R可以从参与者S的行动中获得行为信息,这些行为信息对参与者R来说就是反映参与者S效用的信号。
由于信号博弈属于不完全信息动态博弈,因此可以通过海萨尼转换表示为完全但不完美信息动态博弈,其时间顺序如下:
(1)“自然”先按一定概率从参与者S的类型空间ΘS中选择一个类型θS,其中θS∈ΘS。参与者S知道θS,但参与者R不知道。参与者R拥有对θS的“推断”值(实质为先验概率)。
(2)参与者S在观察到θS后从其动作空间AS中选择一个动作aS,其中aS∈AS。
(3)参与者R观察到aS后,先应用贝叶斯法则从先验概率得到后验概率(即下一个“推断”值),再从其动作空间AR中选择一个动作aR,其中aR∈AR。
(4)双方支付分别由uSθS,aS,aR和uRθS,aS,aR给出。
与信号博弈相关的均衡是完美贝叶斯均衡,包括纯策略或混合策略完美贝叶斯均衡。需要注意的是,“阶段博弈”实质是一种不完全信息静态博弈,因此其相关的均衡是纯策略或混合策略贝叶斯均衡。
一个信号博弈具有完美贝叶斯均衡的条件如下:
(1)参与者R必须有关于参与者S类型的“推断”值,由于该“推断”值是在观察到aS之后作出的,因此记为p(θS|aS)并满足
(2)给定推断p(θS|aS)和参与者S发出的信号aS,参与者R选择的行动应该是最优的,也就是最优化问题,即
的解。
(3)给定参与者R的最优行动,参与者S选择的动作应该是最优的,也就是最优化问题,即
的解。
(4)对每个aS∈AS,如果∃θS∈ΘS使得a*S=aS,那么在对应aS的参与者R的信息集中,参与者R的下一个“推断”值由贝叶斯法则得到,即
2.2.9 演化博弈
传统博弈类型(包含合作博弈和非合作博弈)假定参与者的博弈过程具有完全理性(Full Rationality),也就是说,参与者在复杂的博弈环境中,对于博弈时相互的动作、支付等信息有准确的理解、分析和判断能力,已充分了解并遵守博弈规则,通过复杂且多层次的交互推理得到博弈的结果——均衡。在这个过程中,参与者不会犯错误,不会怀疑对方的推理能力和理性,能准确地进行推理。
与传统博弈类型不同,演化博弈(Evolutionary Game)假定博弈的参与者在具有有限理性(Bounded Rationality)的基础上,分析参与者进行的策略选择,得到的是有限理性下的博弈均衡。这里的有限理性代表了参与者有一定的统计分析能力和对不同策略下得到收益的事后判断能力,但缺乏事前的预测和判断能力[18]。参与者只有有限的认知水平、有限的信息收集能力及有限的信息处理和推理能力,参与者的决策行为将受到其所处的群体环境的影响,只能通过学习、模仿进行策略选择。正是因为存在有限理性,参与者在演化博弈中不会马上得到最优的策略,而是需要在所处环境的影响下经历一个自我适应的调整过程,通过不断的学习、不断的试错找到最优的策略。这意味着演化博弈中的均衡不是一次选择的结果,而是需要动态地调整和适应才能达到,并且即使达到了均衡,在环境改变的前提下,可能会出现偏离现象。
演化稳定策略是演化博弈中的重要概念,其实质是演化博弈中的均衡,它源于生物进化论中的自然选择原理[18]。若一个种群达到了演化稳定策略,那么该种群中所有个体都采取这种策略,即使出现突变策略也不会影响到这个种群。也就是说,那些具备有限理性的种群个体根据其当前收益会不断地进行策略调整以实现其收益的最优化,最终达到一种动态平衡状态(即每个个体都选择演化稳定策略)。当一个种群达到演化稳定策略后,任何一个个体都不会单方面改变其策略,因为这种改变势必会造成个体收益的减少。所以,一个种群具有演化稳定策略就意味着该种群具有很大的稳定性,它将能抑制任何变异对种群的干扰。
演化稳定策略具有以下的重要性质:
(1)演化稳定策略是一种对称的、完美的均衡[19]。
(2)演化稳定策略代表了静态概念,在多种情况下可以直接从博弈模型的支付矩阵中得到演化稳定策略[19]。
(3)纳什均衡不一定是演化稳定策略,只有达到严格纳什均衡才一定是演化稳定策略;反过来,演化稳定策略肯定是纳什均衡,其实质是纳什均衡的精炼[19]。
(4)若一个对称的策略组合是纳什均衡,那么它是演化稳定策略[19]。
实际上,演化博弈的过程归根结底建立在选择(Selection)和突变(Mutation)这两大机制上。选择机制是指当前能够获得较高适应度(Fitness)的策略在今后会被更多的参与者通过学习模仿后采用;突变机制是指种群中的部分个体以随机的方式选择动作策略,这种突变可能会使参与者获得较高收益也可能获得较低收益,其中获得较高收益的策略经过选择机制的作用变得广泛流行,而获得较低收益的策略则自然消亡[19]。若将这种突变机制体现到种群的个体数量上,则采取广泛流行策略的个体数量将增加,而采取自然消亡策略的个体数量将减少。所以说,演化博弈的基本思想就是不断地演进、不断地自适应调整,从而使有较高收益的策略变得更加流行,直至达到演化稳定策略。
复制动态模型是目前描述种群个体行为选择机制的一种典型动力学模型,这是一种确定性和非线性模型。通过复制动态模型,可以较好地体现种群个体行为的有效理性变化趋势,在此基础上加入种群个体的随机选择策略行为后,就构成了一个包含选择和变异这两大机制的演化博弈模型,由此推出的结论能较好地预测种群个体的策略选择趋势[19]。复制动态动力学方程的给出主要基于使用某一策略的个体的增长率等于使用该策略时个体所得的收益与种群平均收益的差[19]。下面给出复制动态动力学方程的表达形式。
设
为一个种群中各个体可选择的动作组成的纯策略空间;ϕi(t)为种群个体在时刻t选择纯策略si的数量;
为整个种群在时刻t所处的状态,该状态实际上可理解为该种群在时刻t的混合策略,其中,θi(t)为种群个体在时刻t选择纯策略si的数量占整个种群的比例,即
其中θi(t)满足
u(si,θ(t))为种群个体选择纯策略si的期望收益,即
(θ(t),θ(t))为整个种群的平均期望收益,即
假设每个个体的繁殖率与个体所占比例成正比[28],即
由此,可得到复制动态方程[28]为
2.2.10 微分博弈
微分博弈(Differential Game)理论建立于1965年美国人Rufus Isaacs的Differential Games[29]一书,该书是世界上第一部微分博弈专著,其出版标志着微分博弈的诞生,Isaacs也因此被尊称为“微分博弈之父”。其主要内容是研究动态的追逃策略问题,描述的是由一位追捕者(Pursuer)和一位逃避者(Evader)所组成的零和微分博弈及其解法。在这个零和微分博弈中,追捕者的目标是获得最大化抓捕逃避者的策略,而逃避者的目标是获得最大化逃脱追捕者的策略,其中追捕者和逃避者的策略分别是各自的追捕和逃避路线[29]。由于逃避者的收益是追捕者的损失,反之也一样,所以这是一个零和微分博弈。1970年,美国数学家Avner Friedman建立了微分博弈值与鞍点存在性理论[30-32],奠定了微分博弈的数学理论基础。随后,微分博弈理论的研究与应用有了很大的发展,定量与定性微分博弈、非合作与合作微分博弈、随机微分博弈、主从微分博弈等不同博弈类型问题的研究不断深入。在国内,张嗣瀛院士的《微分对策》[33]应该是最早的专著;2000年,李登峰教授的《微分对策及其应用》[34]专著问世。这两本专著重点分析了微分博弈在军事、控制问题上的应用。
实际上,微分博弈将原来离散的博弈过程扩展到连续时间之上,也就是说,参与者可以在无限小的时间内改变各自的控制策略。因此,使用微分博弈可以描述连续动态博弈系统的演化过程。微分博弈理论类似于传统的最优控制理论,且使用类似的数学分析处理工具。不过最优控制理论主要考虑的是单个参与者为一个目标而进行的控制,而微分博弈则要考虑多个参与者对成本函数各自有不同的目标而分别进行的控制,且还要考虑参与者之间选择控制策略时的相互影响。由于在连续时间上描述参与者之间的最优策略相互关系往往比较困难,因此,在微分博弈理论中需要对各参与者的控制策略空间作出限制。其中较严格的限制即为“开环”(Open-loop)控制策略,该类型的控制策略要求参与者在博弈过程中得不到新的信息,所以,只能构造出一个随时间而变化的控制函数作为自己的控制策略,而不能根据参与者双方的实际博弈进程的观察来动态改变自己的控制策略[35]。比“开环”控制策略限制要弱一些的是“闭环”(Closed-loop)控制策略,该控制策略使参与者可以得到反馈信息,从而能动态实时地更改各自的控制策略。但为了能在数学上进行处理,一般假设其中的一个参与者不能直接观察到其他参与者的博弈变量,而只能观察到某种状态变量,另外,还需假设博弈过程具有马尔可夫性,即以往的博弈历史不会影响到后续的博弈过程,参与者仅根据当前状态变量的取值来决定自己应采取的控制策略[35]。
微分博弈的均衡解主要有开环纳什均衡(Open-loop Nash Equilibrium)、闭环纳什均衡(Closed-loop Nash Equilibrium)和反馈纳什均衡(Feedback Nash Equilibrium)[36]。
开环纳什均衡的解法有3个方面的特点:首先,在其他参与者都采用最优控制策略的条件下,每位参与者在选择最优控制策略时,不仅要考虑自己当前的瞬时成本,还要考虑博弈状态的变化进展对自己未来涉及的成本带来的影响;其次,博弈的最优状态取决于所有参与者的最优控制策略以及当前的时间点和状态,而在博弈开始时间的最优状态与博弈的开始状态相同;最后,在所有参与者都采用最优控制策略的条件下,而且参与者的这些最优控制策略只依赖于当前时间和开始状态的情况下,每位参与者的目标成本函数的变化取决于它在当前的瞬时成本、当前的状态和当前的目标成本函数等[19]。
与开环纳什均衡的解法类似,闭环纳什均衡的解法包含开环纳什均衡解法的前两方面的特点,但第三方面的特点有区别。在闭环纳什均衡解法中,每位参与者的目标成本函数的变化除取决于它在当前的瞬时成本和当前的目标成本函数外,还取决于状态的瞬时变化。
而反馈纳什均衡的解法包含两方面的特点。首先,当所有参与者都采用根据当前时间点和状态确定的最优控制策略时,参与者价值函数的值将随着时间的进展而转变,且在每一瞬间转变的减数等于它的瞬时成本,而状态的最优变化进展为价值函数值所带来的所有转变之和;其次,参与者的价值函数在最后时间点的值等于参与者在博弈结束后的终期成本[19]。
通常,在一个两人零和微分博弈中,参与者在逗留期[0,T]区间的目标成本函数为
式中,t∈[0,T]为博弈的每一时刻;T为博弈的结束时间;μ(t)和ν(t)分别为两个参与者可以在时刻t采取的控制策略,博弈过程中使用的所有控制策略的集合代表了参与者随时间而进展的控制策略路径;x(t)为状态向量,其动态变化过程常使用微分式
描述;g(t,x(t),μ(t),ν(t))为参与者在时刻t的瞬时成本;q(x(T))为博弈的终期成本。选择控制策略μ(t)的参与者在接下来的博弈过程中将试图最小化目标成本函数J(μ(t),ν(t)),与之相反,选择控制策略ν(t)的参与者将试图最大化J(μ(t),ν(t))。尤其需要说明的是,零和微分博弈的鞍点(Saddle-point)即是该微分博弈的纳什均衡,也就是说,在两个参与者都采用鞍点控制策略时,在对方没有改变控制策略的前提下,任何一方都不会偏离鞍点控制策略。因此,鞍点控制策略实际上已成为参与者能够选择的最优控制策略。
2.2.11 随机博弈
随机博弈(Stochastic Game)是一类具有状态概率转移的动态博弈,它由一系列阶段组成[15]。在随机博弈中每一“阶段博弈”的起始,博弈处于某种特定状态。每个参与者选择某种动作策略,此时会获得由当前状态和动作策略确定的收益。然后整个随机博弈按照概率的分布和参与者选择的动作策略随机转移到下一个“阶段博弈”。在新的“阶段博弈”(状态),重复上一次的动作策略选择过程,再继续进行有限或无限次数的“阶段博弈”。最后,一个参与者得到的累积收益常用各“阶段博弈”的收益的贴现和或是各“阶段博弈”的收益的平均值的下限来计算。
如果整个随机博弈具有有限数量的参与者并且每个“阶段博弈”包含的状态数量有限,那么该随机博弈存在一个纳什均衡[15]。同样地,对于一个具有无穷阶段的随机博弈,如果使用各“阶段博弈”的收益的贴现和来计算参与者在整个随机博弈的收益,那么这个随机博弈也存在纳什均衡。Nicolas Vieille已经证明具有有限阶段和有限状态的两人随机博弈当中,如果参与者在博弈过程中的收益使用各个阶段收益平均值的下限来计算,是能逼近纳什均衡的[15]。然而,包含两个以上的参与者的随机博弈是否存在纳什均衡,仍然是个未决的问题[15]。
下面给出双人零和随机博弈的形式化描述。在一个双人零和随机博弈中,设包含z个“阶段博弈”Γk(k=1,…,z)。每一个“阶段博弈”
是一个mk×nk矩阵,其每个矩阵元素为
其中,对
当整个随机博弈结束时,“阶段博弈”Γk的转移概率为
参与者1的混合策略αk是一个mk维向量并满足
其中,。参与者2的混合策略βk是一个nk维向量并满足
其中,。
给定参与者1和2的“策略对”(i,j),可以计算从“阶段博弈”Γk开始的期望支付νk(k=1,…,z),从而可得到“策略对”(i,j)的博弈值向量v=(v1,v2,…,vz)。如果博弈值向量v存在,为计算参与者1和2的最优策略,需要将“阶段博弈”Γk用期望支付
代替,其中val(Δk)是矩阵博弈Δk的值,且
是一个mk×nk矩阵,其每个矩阵元素
最终,对整个随机博弈而言,参与者1和2的最优策略即是每个矩阵博弈Δk中所有各自最优策略的集合。
2.2.12 联盟博弈
联盟博弈(Coalitional Game)在合作博弈领域是应用最广泛的博弈[37-40]。联盟博弈使用联盟式描述,包含参与者集合和特征函数(Characteristic Function)两个元素。与联盟博弈相关的重要概念主要有“优超”核(Core)、夏普里值(Shapley Value)和稳定集(Stable Set),其中稳定集是联盟博弈的解概念。
联盟博弈的最大优势在于所有参与者的收益都会有一定程度增加,或者至少有一个参与者的收益会在参与者相互的合作中有所增加,而其他参与者的收益都不会因此减小,因此一个联盟的整体收益会相应增加。实质上,这种收益的增加主要是因为联盟博弈选择的是合作行为,或者说是相互妥协的方式,这样就可以产生超出各个参与者单独采取博弈行为所获得的收益之和。当然,其实现过程需要参与联盟博弈的各个参与者在合作之前通过重复的讨价还价才能达成合作的共识。
联盟博弈的存在需要满足以下两个条件:
(1)从联盟外部来看,联盟的整体收益要大于各个联盟内部参与者在非合作博弈中的收益的总和。
(2)从联盟内部来看,应具有包含帕累托改进特性的分配规则,即每个合作参与者都能够获得一部分多于其不选择加入联盟时的收益。
在实际应用中,联盟博弈主要用来描述一群参与者之间合作的动态过程,处理合作群体的形成问题,使用merge-and-split规则动态更新联盟集合,协调参与者之间的行动,使得整个联盟的效用最大,个体参与者的收益最优。联盟博弈的merge-and-split规则能够以分布式的方式实现,适用于无线网络节点之间相互合作的博弈,它为无线网络设计公平的、健壮的、高效的合作通信策略提供了强有力的数学工具。
联盟博弈主要由参与者集合N={1,…,n}和联盟值组成,其中,联盟值通常用v表示,它代表博弈中整个联盟的效用;联盟博弈表示为(N,v)。联盟博弈具有可传递性(TU)和不可传递性(NTU),可传递性是指联盟接收的总效用能以任何方式在联盟成员中分配。联盟博弈具有以下的基本定义。
定义2-1 当联盟中仍有参与者加入或退出发生时,联盟博弈处于不稳定状态。当参与者没有动机形成新的联盟时,联盟博弈处于稳定状态,此时的稳定联盟叫做具有TU联盟核,可表示为
定义2-2 如果每个参与者获得的收益不小于单独行动时获得的收益,即
则收益向量θ=(θ1,…,θM)反映出个体参与者是理性的。
定义2-3 具有可传递性(TU)的联盟博弈(N,v),如果对于任何两个不相交的联盟,S1,S2⊂N,S1∩S2=,满足v(S1∪S2)≥v(S1)+v(S2),则此联盟具有超可加性。
定义2-4 如果联盟的TU核为空或者很大且无法选择适当的收益分配集合时,则对于每个参与者i∈N,由Shaplay值分配的收益为
定义2-5 对于给定的两个联盟集合S={S1,…,Sl}和R={R1,…,Rp},定义i为联盟集合S和R传递的二元关系,SiR表示联盟博弈参与者i偏向于加入联盟集合S。