动态规划是用来解决已知模型强化学习问题的基础方法。具体来说,它包括策略迭代和值迭代两类算法。策略迭代通过策略评估和策略改进交替进行求取最优策略。值迭代在进行每一步的策略评估时,直接求取最优值函数,值函数收敛后求取最优策略。本章通过网格世界寻找宝藏的实例,详细介绍了两种算法的求解过程和代码,并对两者的效率进行了比较,相比而言,值迭代算法具有更高的效率。