前言
自1965年Rufus Isaacs出版了第一部微分博弈专著Differential Games以来,无论其理论还是应用研究都得到了很大的发展。今天,微分博弈已经广泛应用于生物学、经济学、国际关系、计算机科学和军事战略等诸多领域,成为科学有效的决策工具。本书以工程和经济金融领域中广泛使用的时滞随机系统为研究对象,在已有时滞系统最优控制理论和微分博弈理论的基础上,利用动态优化理论中的最大值原理、配方法等,系统研究时滞随机系统的微分博弈问题,并给出其在随机H2/H∞控制和数理金融中的应用分析。
全书共分9章。
第1章是绪论。主要介绍了本选题的研究背景和意义,回顾了国内外学者在时滞随机系统微分博弈理论及应用研究方面的相关成果。
第2章研究了扩散项中包含状态和控制的时滞线性随机系统的Nash微分博弈问题。首先,回顾了时滞线性随机系统二次控制问题的相关结论,然后在此基础上,建立了时滞线性随机系统的两人Nash微分博弈模型。借助随机最大值原理给出了均衡策略的存在条件,得到了均衡策略的显式表达,拓展了已有的Nash随机微分博弈的研究成果。
第3章研究了时滞线性随机系统的Stackelberg博弈问题。首先,针对系统中不存在时滞的情形,借助随机最大值原理研究了无时滞动态系统的Stackelberg博弈问题。然后在此基础上,采用类似的方法研究了时滞线性随机系统的Stackelberg博弈问题,得到了均衡策略的存在条件,给出了均衡策略的显式表达,拓展了已有关于Stackelberg随机微分博弈的研究成果。
第4章考虑了时滞线性随机系统微分博弈的Pareto策略问题。首先,针对无时滞博弈的Pareto策略问题,借助配方法,得到了连续时间系统和离散时间系统Pareto策略存在的条件和显式表达。然后,利用此方法研究带时滞博弈的Pareto策略问题,推导证明了Pareto策略存在的条件等价于矩阵不等式存在解,同时得到了Pareto策略的显式解和最优值函数的一个上界。
第5章基于Nash博弈方法研究了时滞线性随机系统的H2/H∞混合鲁棒控制问题。借助于时滞线性随机系统Nash博弈的结果,将控制策略设计者视为博弈的一方记为博弈人P1,将随机性干扰视为博弈的另一方记为“自然博弈人”P2,从而将鲁棒控制问题转化为两人博弈问题,即博弈人P1如何在预期到“自然人”P2的各种干扰策略情况下设计自己的策略,既实现与“自然人”的均衡又使自己的目标最优。解决了噪声同时依赖于状态、控制和干扰的时滞线性随机系统的混合H2/H∞控制问题,证明了控制器的存在性,并借助正倒向随机微分方程给出了反馈控制策略的解析表达。
第6章研究了广义时滞线性随机系统的多人Nash微分博弈问题。首先,针对无时滞情形下的广义线性随机系统,讨论了其在有限时间和无限时间域内的N人Nash微分博弈问题,借助一组推广的耦合Riccati方程得到了Nash均衡策略存在的充分条件,即耦合Riccati方程如果存在解,Nash均衡策略就存在,同时给出了Nash均衡策略的显式表达。然后,将相关结果拓展至广义时滞线性随机系统的多人Nash微分博弈问题中,得到了Nash均衡策略的存在条件等价于一组矩阵不等式存在解。最后,将所得到的广义时滞线性随机系统的多人Nash微分博弈结果应用于随机H2/H∞控制中,得到了随机H2/H∞控制的存在条件和显式表示。
第7章考虑了时滞非线性随机系统的Nash微分博弈问题。针对一类噪声依赖于状态和控制的时滞非线性随机系统,研究了无限时间域内的两人Nash微分博弈问题,借助四个耦合的Hamilton-Jacobi方程组(HJEs)得到了Nash均衡策略存在的充分条件,即耦合HJEs如果存在解,Nash均衡策略就存在,同时给出了Nash均衡策略的显式表达。最后,通过一个数值算例验证了所得结论的有效性。
第8章在第7章的基础上研究了一类噪声依赖于状态、控制和干扰的无限时间域内的时滞非线性随机系统混合H2/H∞控制问题。首先,借助于四个耦合的Hamilton-Jacobi方程组得到了带时滞的非线性随机系统H2/H∞控制存在的充分性条件。然后,基于T-S模糊模型给出了噪声依赖状态和控制的时滞非线性随机系统H2/H∞控制器的设计方案。控制器的设计可通过求解一组线性矩阵不等式获得,从而避开了求解耦合HJEs的困难。最后,数值仿真算例验证了结论的有效性。
第9章基于博弈分析的方法研究了数理金融中的投资组合选择问题及生产和消费选择问题。针对投资组合选择问题,将自然看成博弈的“虚拟”对手,在投资者与自然之间构建了一个两人零和随机微分博弈模型,投资者选择一个投资策略最大化其终止时刻财富期望效用,而市场选择一个概率测度代表的投资环境最小化投资者的最大化终止时刻期望财富效用。利用最大值原理得到了投资者的最优投资策略的显式解。针对生产和消费选择问题,构建了雇主和雇员之间的一个两人非零和微分博弈模型,消费策略c(·)和努力水平v(·)分别是两个博弈参与人的控制策略,两个博弈参与人分别选择c(·)和v(·)最大化效用函数J1[c(·),v(·)]和J2[c(·),v(·)],利用随机最大值原理获得了两个博弈参与人的最优策略。
最后是结论与展望,对本书的主要结论进行了总结,并提出了未来研究方向。
本书是作者对时滞随机系统微分博弈理论及应用问题研究的初步尝试和探索,由于作者的知识水平和研究能力的限制,书中一定存在不少疏忽及不妥之处,敬请读者批评指正。