解读ChatGPT中的RLHF( 二 ) _ChatGPT

4. RLHF之训练奖励模型RLHF 的最重要任务是生成一个奖励模型 (RM)，它可以根据人的偏好为输入文本分配一个标量奖励。奖励模型可以是端到端的语言模型或模块化系统，并使用提示对数据集进行训练。下图展示了奖励模型是如何工作的：

文章插图
可以看到，目标是希望得到一个模型，它可以将某个输入文本序列映射到标量奖励值。众所周知，增强学习采用单个标量值，并通过其环境随着时间的推移对其进行优化。
奖励模型的训练也是从一个数据集开始的，但要注意它与用于大型模型预训练的数据集不同。这里的数据集侧重于特定的首选项，是一个提示输入数据集。它包含模型将用于的特定用例的提示，以及与提示示例相关联的预期奖励，例如 $(prompt, reward)$ pairs 。数据集通常比预先训练的数据集小得多。因此，输出是文本示例的排名/奖励。
通常情况下，可以使用一个大型的“teacher”模型集合来减轻偏见，增加排名的多样性，或让人工对排名参与这些模型的循环。例如，当使用 ChatGPT 时，它有一个向上或向下的图标。这允许模型通过众包学习它的排名输出。
5. 用增强学习对大模型进行微调下图解释了奖励模型微调的工作原理。

文章插图
首先，获取提示数据集，即用户所说的内容或者我们希望模型能够很好生成的内容。然后，它被发送到增强学习的策略中，这是一个调优的语言模型，以根据提示生成适当的输出。随着初始大语言模型的输出，这被传递到生成标量奖励值的奖励模型中。
这是在一个反馈循环中完成的，基于它接受训练的人工标注，奖励模型可以分配奖励，在资源允许的情况下尽可能多地使用样本，因此，它会随着时间的推移而更新。
Kullback-Leibler（KL）是两个概率分布之间差异的度量，可以用来度量初始大模型输出与调优后的大模型输出。因此，使用 RLHF，KL 可以用来比较当前策略的概率分布和代表期望行为的参考分布。
此外，RLHF 可以对最近的政策优化微调。近似策略优化(PPO)是一种流行的强化学习算法，由于其能够在具有高维状态和行为空间的复杂环境中有效地优化策略，因此经常用于RLHF的微调过程中。PPO 有效地平衡了训练过程中的探索和开发，这对于必须从人类反馈和试错探索中学习的 RLHF Agent来说非常重要。在 RLHF 中使用 PPO 可以导致更快和更强大的学习，因为智能 Agent 能够从人类反馈和强化学习中学习。
在一定程度上，这个过程阻止了语言模型产生胡言乱语。换句话说，它驱使模型专注于高回报，从而最终导致它产生一个准确的文本结果。
6. RLHF之偏差考量及缓解策略大型模型已经被部署在各种应用程序中，从搜索引擎（Bing Chat，google’s Bard）到文本文档（Microsoft office co-Pilot、Google Docs、Notion）等。那么，RLHF 能否给模型增加偏差呢？
答案是肯定的。就像任何有人工输入的机器学习方法一样，RLHF 有可能引入偏差。RLHF 可能引入不同形式的偏差如下：

选择偏差：RLHF 依赖于人类评估者的反馈，他们可能有自己的偏见和偏好，可以限制他们的反馈到他们可以涉及的主题或情况。因此，Agent 可能不会接触到它在现实世界中将会遇到的真实行为和结果的范围。
确认偏差：人类评估者可能更有可能提供反馈，确认他们现有的信念或期望，而不是提供客观的反馈。这可能导致代理因为某些行为或结果而得到加强，而这些行为或结果在长期来看可能不是最理想的结果。
评分者之间的差异：不同的人类评价者可能对 Agent 的响应质量有不同的意见或判断，从而导致 Agent 收到的反馈不一致。这可能使得有效训练 Agent 变得困难，并且可能导致性能不理想。
有限的反馈：人工评估者可能无法提供关于 Agent 所有方面的反馈，从而导致 Agent 的学习差距和在某些情况下潜在的次优结果。

针对RLHF可能存在的不同类型偏差，缓解策略如下: