Python强化学习:算法、核心技术与行业应用
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.2 机器学习的三种范式

强化学习是机器学习中的一种独立范式,类似的还有监督学习(Supervised Learning,SL)和无监督学习(Unsupervised Learning, UL)。强化学习超越了其他两种范式所涉及的范围(例如,感知、分类、回归和聚类),而且要做出决策。然而,更重要的是,强化学习其实也利用了监督和无监督学习方法来实现决策。因此,强化学习是与监督学习和无监督学习截然不同但又密切相关的领域,掌握这三种都很重要。

1.2.1 监督学习

监督学习是指学习一个数学函数,该函数尽可能准确地将一组输入映射到相应的输出/标记。这个想法是,我们不知道生成输出的过程的动态,但我们尝试使用来自它的数据来弄清楚它。考虑以下示例:

❑ 将自动驾驶汽车摄像头上的对象分类为行人、停车标志、卡车等的图像识别模型。

❑ 使用过去的销售数据预测特定假日季节产品的客户需求的预测模型。

很难想出精确的规则来直观地区分对象,或者是什么因素导致客户对产品产生需求。因此,监督学习模型从标记数据中推断出它们。以下是有关其工作原理的一些要点:

❑ 在训练期间,模型从主管(可能是人类专家或流程)提供的基本事实标记/输出中学习。

❑ 在推理过程中,模型对输入可能给出的输出进行预测。

❑ 模型使用函数近似器(也叫函数逼近器)来表示生成输出的过程的动态。

1.2.2 无监督学习

无监督学习算法识别数据中以前未知的模式。使用这些模型时,我们可能对预期的结果有所了解,但我们不为模型提供标记。考虑以下示例:

❑ 识别自动驾驶汽车摄像头提供的图像上的同质片段。该模型很可能根据图像上的纹理将天空、道路、建筑物等分开。

❑ 根据销量将每周销售数据分成三组。输出可能是分别对应低、中、高销量的几周。

如你所知,这与监督学习的工作方式(在以下方面)截然不同:

❑ 无监督学习模型不知道基本事实是什么,并且没有输入要映射到的标记。它们只是识别数据中的不同模式。例如,即使这样做了,模型也不会意识到它将天空与道路分开,或者将假期周与常规周分开。

❑ 在推理过程中,模型会将输入聚集到它已识别的组之一中,但并不知道该组代表什么。

❑ 函数近似器(如神经网络)在一些无监督学习算法中使用,但并非所有无监督学习算法都会用到。

重新介绍了监督学习和无监督学习后,我们现在将它们与强化学习进行比较。

1.2.3 强化学习

强化学习是一个框架,用于学习如何在不确定的情况下做出决策,以通过反复实验来最大化长期利益。这些决策是按顺序做出的,较早的决策会影响以后遇到的情况和收益。这将强化学习与监督学习和无监督学习分开,后者不涉及任何决策。让我们回顾一下之前提供的示例,看看强化学习模型在哪些方面与监督学习和无监督学习模型不同:

❑ 在自动驾驶汽车场景中,给定汽车摄像头上所有物体的类型和位置以及道路上车道的边缘,模型可能会学习如何操纵方向盘以及汽车的速度应该是多少,从而使汽车安全且快速地超过前方的车辆。

❑ 给定产品的历史销售数量以及将库存从供应商处带到商店所需的时间,模型可能会了解何时从供应商处订购以及订购多少件,从而极有可能满足季节性客户需求,同时最大限度地降低库存和运输成本。

正如你会注意到的,强化学习试图完成的任务与监督学习和无监督学习单独解决的任务具有不同的性质和复杂性。下面我们将详细说明强化学习的不同之处:

❑ 强化学习模型的输出是给定情况的决策,而不是预测或聚类。

❑ 主管没有提供真实的决策来告诉模型在不同情况下的理想决策是什么。相反,该模型从自己的经验和过去做出的决定的反馈中学习最优决策。例如,通过反复实验,强化学习模型会了解到在超车时超速行驶可能会导致事故,而在假期前订购过多产品会导致以后库存过多。

❑ 强化学习模型经常使用监督学习模型的输出作为决策的输入。例如,自动驾驶汽车中图像识别模型的输出可用于做出驾驶决策。同样,预测模型的输出通常用作强化学习模型的输入,以做出库存补货决策。

❑ 即使在没有来自辅助模型的此类输入的情况下,强化学习模型也可以隐式或显式地预测其决策将在未来导致什么情况。

❑ 强化学习使用了许多为监督学习和无监督学习开发的方法,例如作为函数近似器的各种类型的神经网络。

因此,强化学习与其他机器学习方法的区别在于,它是一个决策框架。然而,强化学习令人兴奋和强大的原因是它与我们人类学习如何根据经验做出决定的相似之处。想象一个蹒跚学步的孩子学习如何用玩具积木建造一座塔。通常,塔越高,蹒跚学步的孩子就越快乐。每一次塔高的增加都是一次成功的尝试。而每一次倒塌则都是一次失败的尝试。他们很快发现,下一个积木越靠近下方积木的中心,塔就越稳定。当放置得太靠近边缘的积木更容易倾倒时,这一点会得到加强。他们利用练习设法将几个积木堆叠在一起。他们意识到堆叠早期积木的方式为其创建了一个基础,该基础决定了他们可以建造多高的塔。孩子们就是按照这样的方式来学习的。

当然,蹒跚学步的孩子并不是从一个“蓝图”中学习这些建筑原理的。孩子们是从失败和成功的尝试的共同点中吸取了教训。塔的高度增加或倒塌提供了一个反馈信号,孩子们据此改进了他们的策略。从经验中学习,而不是借助一个蓝图,是强化学习的核心。就像蹒跚学步的孩子发现哪些积木位置会导致更高的塔一样,强化学习智能体通过反复实验确定具有最高长期回报的行动。这就是使强化学习成为如此深刻的人工智能形式的原因。它确实很像人类。

在过去几年中,有许多令人惊叹的成功案例证明了强化学习的潜力。此外,还有很多行业即将变革。因此,在深入研究强化学习的技术方面之前,让我们通过研究强化学习在实践中可以做些什么来进一步激励自己。