3.7 小结_强化学习-QQ阅读男生都市网

上QQ阅读APP看书，第一时间看更新

3.7　小结

动态规划是用来解决已知模型强化学习问题的基础方法。具体来说，它包括策略迭代和值迭代两类算法。策略迭代通过策略评估和策略改进交替进行求取最优策略。值迭代在进行每一步的策略评估时，直接求取最优值函数，值函数收敛后求取最优策略。本章通过网格世界寻找宝藏的实例，详细介绍了两种算法的求解过程和代码，并对两者的效率进行了比较，相比而言，值迭代算法具有更高的效率。