1.4 小结_强化学习-同人网

上QQ阅读APP看书，第一时间看更新

1.4　小结

提起AlphaGo、AlphaGo Zero和AlphaZero，大家应该都不陌生，因为其在人机大战中的胜利，使得强化学习开始受到大家的广泛关注。强化学习是机器学习的一种，它通过与环境不断地交互，借助环境的反馈来调整自己的行为，使得累积回报最大。强化学习要解决的就是决策类问题，即求取当前状态下最优行为或行为概率。

强化学习包括智能体和环境两大对象，智能体是算法本身，环境是与智能体交互的外部。智能体通过行为a作用于环境，环境反馈给智能体改变前后的状态s和s'，以及回报r。根据状态转移概率和回报是否已知，强化学习方法可分为无模型方法和有模型方法。同时，根据在解决强化学习问题时，是对策略函数还是值函数进行逼近，强化学习方法可分为基于值函数的方法、基于策略函数的方法及行动者-评论家方法。