第1章 强化学习概述
1.1 强化学习的背景
我们在讨论人工智能的时候,首先想到的是AlphaGo、AlphaGo Zero和AlphaZero。
2016年,谷歌旗下的DeepMind团队发布AlphaGo,如图1-1所示,AlphaGo以4∶1的战绩击败了世界围棋冠军、韩国棋手李世石,震惊了世界。此后,AlphaGo又进化出了AlphaGo Master版本,并以3∶0战胜了当今世界围棋第一人——中国棋手柯洁。闭关一年后,DeepMind推出了最新版本的AlphaGo Zero,无需任何人类指导,完全通过自我博弈,经过3天训练,以100∶0的成绩击败了AlphaGo;经过40天训练,以89∶11的成绩击败了AlphaGo Master。如今,Deepmind再次将这种强大的算法泛化,提出了AlphaZero,它可以从零开始,在多种不同的任务中通过自我对弈超越人类水平。相同条件下,该系统经过8个小时的训练,打败了李世石版AlphaGo;经过4个小时的训练,打败了此前最强国际象棋AI Stockfish;经过2个小时的训练,打败了最强将棋(又称日本象棋)AI Elmo;训练34个小时的AlphaZero胜过了训练72个小时的AlphaGo Zero。
图1-1 人机大战
AlphaGo Zero和AlphaZero会取得如此傲人的成绩,得益于它们所用到的强化学习算法。算法的输入仅限于棋盘、棋子及游戏规则,没有使用任何人类数据。算法基本上从一个对围棋(或其他棋牌类游戏)一无所知的神经网络开始,将该神经网络和一个强力搜索算法结合,自我对弈。在对弈过程中,神经网络不断调整、升级,预测每一步落子和最终的胜利者。随着程序训练的进行,该算法独立发现了人类用几千年才总结出来的围棋规则,还建立了新的战略,发展出打破常规的策略和新招,为这个古老的游戏带来了新见解。
强化学习方法起源于动物心理学的相关原理,模仿人类和动物学习的试错机制,是一种通过与环境交互,学习状态到行为的映射关系,以获得最大累积期望回报的方法。状态到行为的映射关系也即策略,表示在各个状态下,智能体采取的行为或行为概率。
强化学习更像是人类的学习,其本质就是通过与环境交互进行学习。幼儿在学习走路时,虽然没有老师引导,但他与环境有一个直观的联系,这种联系会产生大量关于采取某个行为产生何种后果及为了实现目标要做些什么的因果关系信息,这种与环境的交互无疑是人类学习的主要途径。无论是学习驾驶汽车还是进行对话,我们都非常清楚环境的反馈,并且力求通过我们的行为去影响事态进展。从交互中学习几乎是所有学习和智能理论的基础概念。人类通过与周围环境交互,学会了行走与奔跑、语言与艺术。
人工智能的目标是赋予机器像人一样思考并反应的智慧,更进一步,希望创造出像人类一样具有自我意识和思考的人工智能。强化学习是解决机器认知的一个重要技术。掌握了强化学习的基本方法和基本原理便掌握了创造未来的基本工具。