强化学习
上QQ阅读APP看书,第一时间看更新

第4章 蒙特卡罗

4.1 蒙特卡罗简介

第3章介绍的动态规划是基于模型的强化学习方法,如下为动态规划计算值函数的公式:

而在实际场景中,环境的状态转移概率及回报往往很难得知,此种情况下,动态规划就不再适用了。这个时候可考虑采用无模型方法通过采样的方式替代策略评估,本章介绍的蒙特卡罗方法就是基于这个思想。

蒙特卡罗(Monte Carlo)方法也称为统计模拟方法(或称统计实验法),是一种基于概率与统计的数值计算方法。算法名字蒙特卡罗来源于以赌博而闻名于世界的摩纳哥城市蒙特卡罗,象征性地表明该算法基于概率统计与随机性的特点。该计算方法的主要核心是通过对建立的数学模型进行大量随机试验,利用概率论求得原始问题的近似解,与它对应的是确定性算法。

蒙特卡罗方法的起源可以追溯到18世纪,法国数学家浦丰(C.D.Buffon,1777)为了验证大数定理,提出用随机投针实验估算圆周率。针长是两平行线距离的一半,投针2212次,相交704次,得出圆周率π=2212/704=3.142。浦丰投针实验演示了蒙特卡罗方法的随机抽样和统计估计的模拟思想,是蒙特卡罗方法的最早尝试。蒙特卡罗声名大噪是在19世纪40年代美国原子弹研制时期,当时,美国核武器研究实验室负责“曼哈顿计划”的成员乌拉姆(S.Ulam)和冯·诺依曼(John von Neumann)等在计算机上实现了中子在原子弹内扩散和增殖的蒙特卡罗模拟,出于保密缘故,冯.诺伊曼选择摩洛哥著名赌城蒙特卡罗作为该项目名称,自此蒙特卡罗方法广为流传。

蒙特卡罗算法的核心思想是,在问题领域中进行随机抽样,通过不断、反复、大量的抽样后,统计结果,得到解空间上关于问题领域的接近真实的分布。这样的思想使得蒙特卡罗算法的应用具有通用性,不受应用领域知识的限制,也因此蒙特卡罗算法被广泛推广运用至物理学、物理化学、医学等领域。

本章将蒙特卡罗应用于强化学习,就有了蒙特卡罗强化学习方法。蒙特卡罗强化学习在进行策略评估时,通过多次采样产生轨迹,求取平均累积回报作为期望累积回报的近似。整个蒙特卡罗强化学习使用了广义策略迭代框架,由策略评估和策略改进两部分组成,一次策略评估后面紧跟着对当前策略的改进,两个步骤交互进行,直至获得最优策略。