解读ChatGPT中的RLHF _ChatGPT

无论是 ChatGPT 还是 GPT-4，它们的核心技术机制之一都是基于人类反馈的强化学习（Reinforcement Learning from Human Feedback，RLHF）。这是大型语言模型生成领域的新训练范式，即以强化学习方式依据人类反馈优化语言模型。那么，什么是 RLHF 呢？
RLHF 背后的基本思想是采用预先训练好的语言模型，并让人们对其输出的结果进行排序。这个输出的排名作为一个信号，引导模型“更喜欢”某些结果，从而诱导响应，使其更安全可信。
RLHF 可以利用人工反馈优化语言模型。通过将RL算法与人工输入结合，帮助模型学习并提高其性能。结合人工反馈，RLHF 可以帮助语言模型更好地理解和生成自然语言，并提高它们执行特定任务的能力，如文本分类或语言翻译。此外，RLHF 还可以帮助缓解语言模型中的偏差问题，允许人类纠正并引导模型朝着更公平和包容性的语言使用方向发展。然而，另一方面，它也引入了一种途径，用于将人类偏见嵌入模型中。
1. 关于强化学习强化学习在数学方面有其基础知识，其中通过代理与环境进行交互，如下图所示：

文章插图
代理人通过采取一个行动与环境进行交互，环境返回一个状态和一个奖励。奖励就是我们想要优化的目标，状态是当前时间索引中环境/世界的表示，策略用于从该状态映射到操作。作为对代理执行的操作的回报，环境返回相应的奖励和下一个状态。
当利用大语音模型完成 NLP 任务时，如何为一个语言模型编码幽默、道德或者安全呢？这些都有一些人类自己能够理解的微妙之处，但是我们不能通过创建定制的损失函数来训练模型。这就是人类反馈强化学习的用武之地。
下图显示了 RLHF 模型如何从大模型和人工标注中获取输入，并创建一个比单独使用这两者更好的响应。

文章插图
2. RLHF之模型训练让我们先从一个高层次的 RLHF 开始，并首先收集所有的背景和事实。
RLHF 可能相当复杂，需要训练多个模型和不同的部署阶段。由于 GPT-4、 ChatGPT 和 DirectGPT 都用 RLHF (由 OpenAI 提供)进行了微调，因此让我们通过查看训练步骤来更深入地了解它。
RLHF 的设计是为了使模型更安全、更准确，并确保模型生成的输出文本是安全的，更符合用户的需要。人工智能代理首先在环境中随机作出决策。人工排名者会周期性地接收多个数据样本，甚至可能是模型的输出，根据人类偏好进行排名，例如，给定两个视频，人工排名者决定哪个视频更适合当前任务。
Agent将同时建立一个基于任务目标的模型，并通过使用 RL 对其进行细化。Agent将开始只需要人类对视频的反馈，并进一步完善其理解。
这种循环行为可以从 OpenAI 的下图中直观地看到：

文章插图
OpenAI 使用客户通过 ChatGPT API 向模型提交的提示，并通过手动对模型的几个期望输出排序来微调语言模型，从而获得人工反馈。这丰富了模型产出的质量，从而引导模型朝着信任和安全的方向发展。
这个过程被称为监督式学习，模型通过使用标记数据进行训练，以提高其准确性和性能。通过使用客户提示对模型进行微调，OpenAI 旨在使 ChatGPT在响应给定提示时更有效地生成相关且连贯的文本。

文章插图
为什么我们不总是使用 RLHF呢？由于依赖人工标注，它的扩展性很差。手工标记数据既缓慢又昂贵，这就是为什么非监督式学习一直是机器学习研究人员长期追求的目标。
3. RLHF之预训练语言模型大模型是使用不同参数的各种模型进行预训练的，并且可以针对特定任务进行微调。这又如何与 RLHF 相关呢？
生成数据以训练奖励模型是将人类偏好整合到系统中所必需的。然而，由于 RLHF 训练中各种选择的设计空间没有得到充分的探索，对于哪种模式最适合开始 RLHF 训练还没有明确的答案。下图像显示了预训练语言模型的内部工作原理以及用 RLHF 进一步进行微调的可选路径。