解读ChatGPT中的RLHF( 三 )

  • 共识评价:使用共识评价,即多个评价者就同一项任务提供反馈,有助于减少个别偏见的影响,并提高反馈的可靠性 。这几乎就像是评估中的“规范化” 。
  • 校正评估者:通过向评价者提供关于如何提供反馈的培训和指导来校准评价者,可有助于提高反馈的质量和一致性 。
  • 评价反馈过程:定期评价反馈过程,包括反馈的质量和训练过程的有效性,可有助于查明和解决可能存在的偏差 。
  • 评估Agent的表现:定期评估Agent在各种任务和不同环境中的表现,可以帮助确保它不会过于适合特定的示例,并能够推广到新的情况 。
  • 平衡反馈:在人工评价者的反馈与其他反馈来源(如专家反馈)之间取得平衡,有助于减少反馈中偏差的影响,并提高训练数据的整体质量 。
  • 7. 强化学习与监督式学习中微调的对比下图描述了强化学习与监督式学习中微调的主要区别:
    解读ChatGPT中的RLHF

    文章插图
    既然增强学习需要人工反馈提供的标签,那为什么我们不只是把这些标签和监督式学习本身一起使用呢?
    监督式学习的重点是缩小真实标签和模型输出之间的差距 。在这里,它意味着模型只是记住等级,并可能产生胡言乱语的输出,因为它的重点是最大限度地提高它的等级 。这就是 RL 中奖励模型所做的,是 KL 差异可以提供帮助的地方 。在这种情况下,如果联合训练两个损失函数,一个用于排名,一个用于输出 。那么,这个场景就只适用于问答任务,而不适用于 ChatGPT 或其他会话模型的每种会话模式 。
    GPT 使用交叉熵损失函数对下一个词进行预测 。然而,RLHF 不使用标准损失函数,而是使用客观函数来帮助模型更好地服务于使用 RLHF 的任务,例如信任和安全 。此外,因为否定一个词可以完全改变文本的意思,它在这里不是用武之地 。根据经验,RLHF 的性能往往优于监督式学习 。监督式学习使用标注级损失,例如可以在文本段落中求和或取平均值,而 RL 将整个文本段落作为一个整体来考虑 。
    最后,二者不是互斥的,可以首先使用 SL 进行微调,然后使用 RLHF 进行更新 。
    8. RHLF之潜在演进方向——RLAIFAnthroic 的对话助手 Claude 采用了一种不同的方法来处理 RLHF,即从人工智能反馈 (RLAIF) 中创建 RLHF V2,并去掉了人工反馈 。
    RLAIF 利用人工智能系统协助监管其他人工智能的可能性,以及提高监管的可扩展性 。通过减少回避式响应,减少有益和无害之间的紧张关系,并鼓励 AI 解释对有害请求的反对意见,从而改进对无害 AI 助手的训练,使控制人工智能行为的原则及其实现更加透明 。通过消除在改变目标时收集新的人工反馈标签的需要,来减少迭代时间 。
    RLAIF 允许模型解释为什么它拒绝提供一个答案,这是基于它的思维链推理能力 。这使我们能够洞察模型的推理过程 。使用 RLAIF,不需要人工标签,它大大降低了成本和人力 。它允许 LLM “反映”通过坚持一组原则或章程而产生的输出 。人工智能将审查自己的响应,并确保他们遵守基本原则 。
    具体实现包括两个步骤:监督式学习阶段和 RLAIF 阶段,系统参考架构如下:
    解读ChatGPT中的RLHF

    文章插图
    在监督式学习阶段,AI系统首先采用一套自我完善的规则,包括AI对各种大范围提示的答复,然后修订这些关于原型的初步答复 。首先,检索预先训练LLM模型的响应,其中模型的响应可能包含有害元素 。随后,要求模型使用一套既定的原则来评估自己的响应 。然后,提示模型根据其提供的评估修改其响应 。这两个步骤也称为“批评和修订”管道,将在n次迭代中重复执行 。最后,使用由有害提示生成的修订响应的所有迭代对预先训练好的LLM进行微调 。
    此外,重要的是要包括一组有用的提示和它们各自的响应,以确保经过微调的模型仍然是有用的,也就是这个阶段的“监督”性质 。这个修改后的模型被称为监督式学习AI宪章(SL-CAI)模型 。
    在强化学习阶段,需要AI系统探索对成千上万个提示的可能反应,并使用思维链推理来确定最符合宪章原则的行为 。首先,利用前一阶段开发的SL-CAI模型为有害提示生成响应对 。然后,引入一个反馈模型,它本质上是一个预训练的语言模型,用于评估一对反馈,并根据已建立的原则选择危害较小的反馈 。反馈模型的归一化对数概率用于训练偏好模型或奖励模型 。最后,使用这一奖励模型作为奖励函数,使用近似策略优化(PPO)训练SL-CAI模型 。这就产生了最终的强化学习人工智能宪章(RL-CAI)模型 。


    推荐阅读