更新时间:2024-04-15 11:58:27
封面
版权信息
内容简介
译者序
前言
作者简介
审校者简介
第一部分 强化学习基础
第1章 强化学习简介
1.1 为什么选择强化学习
1.2 机器学习的三种范式
1.3 强化学习应用领域和成功案例
1.4 强化学习问题的元素
1.5 设置强化学习环境
1.6 总结
1.7 参考文献
第2章 多臂老虎机
2.1 探索-利用权衡
2.2 什么是多臂老虎机问题
2.3 案例研究:在线广告
2.4 A/B/n测试
2.5 ε-贪心策略行动
2.6 使用置信上界进行行动选择
2.7 汤普森(后)采样
2.8 总结
2.9 参考文献
第3章 上下文多臂老虎机
3.1 为什么我们需要函数近似
3.2 对上下文使用函数近似
3.3 对行动使用函数近似
3.4 多臂老虎机和上下文老虎机的其他应用
3.5 总结
3.6 参考文献
第4章 马尔可夫决策过程的制定
4.1 马尔可夫链
4.2 引入奖励:马尔可夫奖励过程
4.3 引入行动:马尔可夫决策过程
4.4 部分可观测的马尔可夫决策过程
4.5 总结
4.6 练习
4.7 参考文献
第5章 求解强化学习问题
5.1 探索动态规划
5.2 用蒙特卡罗法训练智能体
5.3 时间差分学习
5.4 了解模拟在强化学习中的重要性
5.5 总结
5.6 练习
5.7 参考文献
第二部分 深度强化学习
第6章 规模化的深度Q-学习
6.1 从表格型Q-学习到深度Q-学习
6.2 深度Q网络
6.3 DQN扩展:Rainbow
6.4 分布式深度Q-学习
6.5 使用Ray实现可扩展的深度Q-学习算法
6.6 使用RLlib实现生产级深度强化学习算法
6.7 总结
6.8 参考文献
第7章 基于策略的方法
7.1 为什么我们应该使用基于策略的方法
7.2 一般性策略梯度方法
7.3 Actor-Critic算法
7.4 信任域方法
7.5 异策略方法
7.6 Lunar Lander环境中基于策略的方法的比较
7.7 如何选择正确的算法
7.8 策略梯度方法的开源实现
7.9 总结
7.10 参考文献
第8章 基于模型的方法
8.1 技术要求
8.2 引入基于模型的方法
8.3 通过模型进行规划
8.4 学习世界模型
8.5 统一基于模型的和无模型的方法
8.6 总结
8.7 参考文献
第9章 多智能体强化学习
9.1 多智能体强化学习介绍
9.2 探索多智能体强化学习中存在的挑战
9.3 在多智能体环境中训练策略
9.4 通过自博弈来训练井字棋智能体
9.5 总结
9.6 参考文献
第三部分 强化学习中的高级主题
第10章 机器教学
10.1 技术要求
10.2 机器教学简介
10.3 设计奖励函数
10.4 课程表学习
10.5 热启动和演示学习
10.6 行动掩蔽
10.7 概念网络
10.8 机器教学的缺点和承诺
10.9 总结
10.10 参考文献
第11章 泛化和域随机化
11.1 泛化和部分可观测性概述
11.2 用于泛化的域随机化