强化学习:原理与Python实战
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.2 强化学习的应用

基于强化学习的人工智能已经有了许多成功的应用。本节将介绍强化学习的一些成功案例,让你更直观地理解强化学习,感受强化学习的强大。

❑电动游戏:电动游戏主要指玩家需要根据屏幕画面的内容进行操作的游戏,包括主机游戏《吃豆人》(PacMan,见图1-2)、PC游戏《星际争霸》(StarCraft)、手机游戏《像素鸟》(Flappy Bird)等。很多游戏需要得到尽可能高的分数,或是要在多方对抗中获得胜利。同时,这些游戏很难在每一步获得应该如何操作的标准答案。从这个角度看,这些游戏的游戏AI需要使用强化学习。基于强化学习,研发人员已经开发出了许多强大的游戏AI,超越了人类能够得到的最佳结果。例如,在主机Atari 2600的数十个经典游戏中,基于强化学习的游戏AI已经在将近一半的游戏中超过人类的历史最佳结果。

图1-2 主机游戏《吃豆人》

注:本图片改编自网络。

❑棋盘游戏:棋盘游戏是围棋(见图1-3)、黑白翻转棋、五子棋等桌上游戏的统称。通过强化学习可以实现各种棋盘运动的AI。棋盘AI有着明确的目标——提高胜率,但是每一步往往没有绝对正确的答案,这正是强化学习所针对的场景。DeepMind公司使用强化学习研发出围棋AI AlphaGo先后战胜李世石、柯洁等围棋顶尖选手,引起了全社会的关注。后来,DeepMind又研发了棋盘游戏AI如AlphaZero和MuZero,它可以在围棋、日本将棋、国际象棋等多个棋盘游戏上达到最高水平,并远远超出人类的最高水平。

❑自动控制:自动控制问题通过控制机械设备(如机器人、机器手、平衡设备等)的行为来完成平衡、移动、抓取等任务。例如,让机器人在固定时间内跑得尽可能远(见图1-4),使得某个平衡系统尽可能长时间保持平衡,或控制机械手尽可能旋转笔。自动控制问题既可能是虚拟仿真环境中的问题,也可能是现实世界中出现的问题。基于强化学习的控制策略可以帮助解决这类控制问题,并已经获得了许多很好的结果。

图1-3 一局围棋棋谱

注:图中实心圆表示黑棋的棋子,空心圆表示白棋的棋子。圆里的数字记录棋子是在第几步被放在棋盘上。本图片改编自论文“Mastering the game of Go without human knowledge”。

图1-4 双足机器人

注:本图改编自https://www.gymlibrary.dev/environments/box2d/bipedal_walker/。