更新时间:2023-10-19 17:44:38
封面
版权信息
内容简介
数学符号表
前言
第1章 初识强化学习
1.1 强化学习及其关键元素
1.2 强化学习的应用
1.3 智能体/环境接口
1.4 强化学习的分类
1.5 强化学习算法的性能指标
1.6 案例:基于Gym库的智能体/环境接口
1.7 本章小结
1.8 练习与模拟面试
第2章 Markov决策过程
2.1 Markov决策过程模型
2.2 价值
2.3 带折扣的分布
2.4 最优策略与最优价值
2.5 案例:悬崖寻路
2.6 本章小结
2.7 练习与模拟面试
第3章 有模型数值迭代
3.1 Bellman算子及其性质
3.2 有模型策略迭代
3.3 价值迭代
3.4 自益与动态规划
3.5 案例:冰面滑行
3.6 本章小结
3.7 练习与模拟面试
第4章 回合更新价值迭代
4.1 同策回合更新
4.2 异策回合更新
4.3 实验:21点游戏
4.4 本章小结
4.5 练习与模拟面试
第5章 时序差分价值迭代
5.1 时序差分目标
5.2 同策时序差分更新
5.3 异策时序差分更新
5.4 资格迹
5.5 案例:的士调度
5.6 本章小结
5.7 练习与模拟面试
第6章 函数近似方法
6.1 函数近似原理
6.2 基于梯度的参数更新
6.3 函数近似的收敛性
6.4 深度Q网络
6.5 案例:小车上山
6.6 本章小结
6.7 练习与模拟面试
第7章 回合更新策略梯度方法
7.1 策略梯度算法的原理
7.2 同策回合更新策略梯度算法
7.3 异策回合更新策略梯度算法
7.4 案例:车杆平衡
7.5 本章小结
7.6 练习与模拟面试
第8章 执行者/评论者
8.1 执行者/评论者方法
8.2 同策执行者/评论者算法
8.3 基于代理优势的同策算法
8.4 自然梯度和信赖域算法
8.5 重要性采样异策执行者/评论者算法
8.6 案例:双节倒立摆
8.7 本章小结
8.8 练习与模拟面试
第9章 连续动作空间的确定性策略
9.1 确定性策略梯度定理
9.2 同策确定性算法
9.3 异策确定性算法
9.4 探索过程
9.5 案例:倒立摆的控制
9.6 本章小结
9.7 练习与模拟面试
第10章 最大熵强化学习
10.1 最大熵强化学习与柔性强化学习理论
10.2 柔性强化学习算法
10.3 自动熵调节
10.4 案例:月球登陆器
10.5 本章小结
10.6 练习与模拟面试
第11章 基于策略的无梯度算法
11.1 无梯度算法
11.2 无梯度算法和策略梯度算法的比较
11.3 案例:双足机器人
11.4 本章小结
11.5 练习与模拟面试
第12章 值分布强化学习
12.1 价值分布及其性质
12.2 效用最大化强化学习
12.3 基于概率分布的算法
12.4 基于分位数的值分布强化学习
12.5 类别深度Q网络算法和分位数回归算法的比较
12.6 案例:Atari电动游戏Pong
12.7 本章小结
12.8 练习与模拟面试
第13章 最小化遗憾
13.1 遗憾