1.3.1 基于模型的（Model-Based）和无模型的（Model-Free）_深度强化学习算法与实践：基于PyTorch的实现-QQ阅读男生都市网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

1.3.1 基于模型的（Model-Based）和无模型的（Model-Free）

在强化学习的过程中有时候需要对环境进行预测，这种预测往往在环境比较复杂，以及智能体和环境作用消耗的代价比较大的时候非常有用。典型的例子比如AlphaGo这个围棋算法。对于算法来说，执行到围棋棋局分出胜负为止往往需要耗费比较大的代价，这时候就可以使用一个模型对环境进行估计，比如估计局势究竟是哪一方占优等。通过建立环境的模型，智能体也可以有效地对自身的路径进行规划，以取得更高的奖励。需要注意的是，这里的模型指的是对环境建立一个模型来预测环境的变化，包括环境的奖励、环境自身状态的变化等。和前面介绍的使用模型来估计价值函数不同，这个估计是针对智能体自身的估计，而不是对环境的估计，这里需要区分开来。如果没有对环境的建模过程，我们称之为无模型的算法，本书主要介绍的是无模型的算法。