1.3.2 微调与优化_解构ChatGPT-QQ阅读男生都市网

上QQ阅读APP看书，第一时间看更新

1.3.2　微调与优化

语言模型更大并不意味着能够更好地遵循用户的意图，大体量的文本资料库中不可避免地包含不良信息，会影响大型语言模型生成不真实、有害的或对用户毫无帮助的输出。在这种情况下，人类的反馈可以提供宝贵的指导。这就是所谓的“从人类反馈中进行强化学习”。换句话说，强化学习是一种通过人类反馈来指导机器学习的方法。这种方法需要人类不断地告诉机器学习算法它的表现好还是不好，从而帮助机器学习算法逐步优化它的表现。例如，如果机器人试图抓取一个物体，它需要知道哪种方法更有效，哪种方法更烦琐。这些信息可以由人类反馈提供，并且机器人可以据此改进它的抓取策略。

人类反馈强化学习是OpenAI在GPT-3基础上，通过人类训练师介入，并根据人类反馈训练出奖励模型（reward model），再用奖励模型去训练学习模型，以此来提高输出内容与人类意图之间一致性的方法。该方法首先使用于InstructGPT的训练中并被ChatGPT继承，如图1-5所示。

图1-5　加入了人类反馈步骤后的大模型迭代速度远超以往（来源：OpenAI官网）