1.1.1 初识强化学习
强化学习,又称为再励学习、评价学习或增强学习,是和监督学习、非监督学习并列的机器学习三大板块之一。强化学习是一种交互式学习方法,智能体以试错的方式和环境进行交互,积累大量经验并获得环境的各种反馈,然后智能体从其积累的经验和环境的反馈中进行学习,并逐渐形成和环境交互的最佳策略。
描述强化学习模型最常用的数学工具是马尔可夫决策过程(Markov Decision Process,MDP)。马尔可夫决策过程是一种满足马尔可夫性的时间序列过程。马尔可夫性是指一个系统下一时刻的状态只与当前时刻的状态有关,而与之前时刻的状态无关。参与强化学习过程的两大主体是智能体(Agent)和环境(Environment)。智能体是策略学习的主体,其任务是学习与环境交互的最佳策略(Policy),这也是强化学习的终极目标。环境一般是指除智能体以外的所有系统过程,其表现形式是环境状态(State)。智能体和环境交互是通过智能体向环境施加动作(Action)实现的,动作会迫使环境状态发生转移,与此同时,环境会给智能体一个反馈信息(Reward),智能体正是通过“状态→动作→下一状态→反馈”这一系列经验(Experience)过程实现逐渐学习最佳策略的,这一决策过程就是马尔可夫决策过程。
强化学习问题有多种分类方式。按照连续性分类,强化学习问题可以分为离散型强化学习问题和连续型强化学习问题。离散型强化学习问题是指状态空间和动作空间都离散的强化学习任务,这种问题一般具有明确的初始状态和终止状态,环境系统可以在有限时间步到达终止状态。可以用基于表格的方法求解离散型强化学习问题,也就是说,求解离散型强化学习问题实际上就是维持一个值函数表格,当表格中的数据收敛时,也就达到了最优策略。本书第2~4章介绍的经典强化学习方法都是基于离散型强化学习问题的。连续型强化学习问题是指状态空间或动作空间连续的强化学习任务,状态空间连续的强化学习问题可能没有明确的终止状态,智能体和环境的交互会一直进行下去。可以用将连续空间离散化的方法求解连续强化学习问题,但当空间维数较大时,这种方法需要耗费巨大的计算资源,同时精度也不高,所以一般不使用这种方法。另外一种求解连续型强化学习问题的方法是函数近似法,这是近年研究较多的方法,本书第6~8章对此进行详细介绍。一般来讲,连续型强化学习问题比离散型强化学习问题更困难,但当离散型强化学习问题的状态空间巨大时,离散型强化学习问题就非常困难了,例如19×19路围棋的状态空间大小为3361≈10170,远大于宇宙中所有原子的数目(1080)。这种规模非常巨大的离散状态空间强化学习问题一般称为大规模强化学习任务,表格法在求解大规模强化学习问题上是无能为力的,一般借助深度学习技术来解决大规模强化学习问题。本书第9章介绍的著名围棋程序AlphaGo系列就是求解大规模强化学习问题的典型案例。
强化学习方法也有多种分类方式。按照学习过程中是否使用明确的状态转移信息来分类,强化学习可以分为有模型强化学习(Model-Based RL)和免模型强化学习(Model-Free RL)。有模型强化学习是指学习过程中使用了状态转移概率函数,根据状态间的已知转移概率来更新值函数的强化学习方法,本书第2章介绍的动态规划法就是典型的有模型强化学习。反之,免模型强化学习是指在学习过程中不使用环境的状态转移概率函数,仅从智能体和环境交互得到的经验中去学习的强化学习方法,本书第3、4、6、7、8章介绍的方法都是免模型强化学习。有模型强化学习和免模型强化学习各有优缺点和适用场景,近年来,将有模型强化学习和免模型强化学习相结合构造更高效的强化学习方法,逐渐成为一个新的研究方向。
按照是否使用深度学习技术来分类,强化学习可以分为经典强化学习和深度强化学习。经典强化学习从最优控制发展而来,其基础理论是动态规划法,主要解决简单的离散型强化学习问题,本书第2~4章介绍经典强化学习。深度强化学习是近年才提出的强化学习新方案,其主要贡献是将经典强化学习和现代深度学习相结合,深度强化学习擅长解决连续型强化学习任务和大规模强化学习任务,本书第6~8章主要介绍深度强化学习。著名的围棋程序AlphaGo系列是深度强化学习的里程碑事件,本书将在第9章对此进行介绍。