上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
1.3.5 人类反馈强化学习
有监督微调能提高模型在特定任务上的表现,但仍可能存在问题。为了进一步优化模型,GPT-3.5以上的版本引入了人类反馈强化学习。如图1.7所示,在这个过程中,模型生成的回答会由人类评价员进行评价,然后将评价结果作为强化学习信号反馈给模型,进而优化模型的表现。这样,ChatGPT可以通过与人类的交互,逐步提高生成的回答的质量。
图1.7 人类反馈强化学习的基本原理
具体来说,从数据集中随机抽取问题,由人类标注员提供高质量答案,然后用这些人工标注的数据微调GPT模型。通过监督学习,模型能够生成更符合人类预期的答案。人类反馈强化学习包括三个步骤:首先是有监督微调;接下来是训练奖励模型(Reward Model,RM),人类标注员根据输出结果进行排序,然后用排序的结果数据训练奖励模型;最后,利用训练好的奖励模型通过强化学习优化策略,根据奖励模型的分数更新预训练模型的参数。重复后两个步骤,可以训练出更高质量的模型,使其生成的内容对齐人类的需求。