文章插图
既然增强学习需要人工反馈提供的标签,那为什么我们不只是把这些标签和监督式学习本身一起使用呢?
监督式学习的重点是缩小真实标签和模型输出之间的差距 。在这里,它意味着模型只是记住等级,并可能产生胡言乱语的输出,因为它的重点是最大限度地提高它的等级 。这就是 RL 中奖励模型所做的,是 KL 差异可以提供帮助的地方 。在这种情况下,如果联合训练两个损失函数,一个用于排名,一个用于输出 。那么,这个场景就只适用于问答任务,而不适用于 ChatGPT 或其他会话模型的每种会话模式 。
GPT 使用交叉熵损失函数对下一个词进行预测 。然而,RLHF 不使用标准损失函数,而是使用客观函数来帮助模型更好地服务于使用 RLHF 的任务,例如信任和安全 。此外,因为否定一个词可以完全改变文本的意思,它在这里不是用武之地 。根据经验,RLHF 的性能往往优于监督式学习 。监督式学习使用标注级损失,例如可以在文本段落中求和或取平均值,而 RL 将整个文本段落作为一个整体来考虑 。
最后,二者不是互斥的,可以首先使用 SL 进行微调,然后使用 RLHF 进行更新 。
8. RHLF之潜在演进方向——RLAIFAnthroic 的对话助手 Claude 采用了一种不同的方法来处理 RLHF,即从人工智能反馈 (RLAIF) 中创建 RLHF V2,并去掉了人工反馈 。
RLAIF 利用人工智能系统协助监管其他人工智能的可能性,以及提高监管的可扩展性 。通过减少回避式响应,减少有益和无害之间的紧张关系,并鼓励 AI 解释对有害请求的反对意见,从而改进对无害 AI 助手的训练,使控制人工智能行为的原则及其实现更加透明 。通过消除在改变目标时收集新的人工反馈标签的需要,来减少迭代时间 。
RLAIF 允许模型解释为什么它拒绝提供一个答案,这是基于它的思维链推理能力 。这使我们能够洞察模型的推理过程 。使用 RLAIF,不需要人工标签,它大大降低了成本和人力 。它允许 LLM “反映”通过坚持一组原则或章程而产生的输出 。人工智能将审查自己的响应,并确保他们遵守基本原则 。
具体实现包括两个步骤:监督式学习阶段和 RLAIF 阶段,系统参考架构如下:
文章插图
在监督式学习阶段,AI系统首先采用一套自我完善的规则,包括AI对各种大范围提示的答复,然后修订这些关于原型的初步答复 。首先,检索预先训练LLM模型的响应,其中模型的响应可能包含有害元素 。随后,要求模型使用一套既定的原则来评估自己的响应 。然后,提示模型根据其提供的评估修改其响应 。这两个步骤也称为“批评和修订”管道,将在n次迭代中重复执行 。最后,使用由有害提示生成的修订响应的所有迭代对预先训练好的LLM进行微调 。
此外,重要的是要包括一组有用的提示和它们各自的响应,以确保经过微调的模型仍然是有用的,也就是这个阶段的“监督”性质 。这个修改后的模型被称为监督式学习AI宪章(SL-CAI)模型 。
在强化学习阶段,需要AI系统探索对成千上万个提示的可能反应,并使用思维链推理来确定最符合宪章原则的行为 。首先,利用前一阶段开发的SL-CAI模型为有害提示生成响应对 。然后,引入一个反馈模型,它本质上是一个预训练的语言模型,用于评估一对反馈,并根据已建立的原则选择危害较小的反馈 。反馈模型的归一化对数概率用于训练偏好模型或奖励模型 。最后,使用这一奖励模型作为奖励函数,使用近似策略优化(PPO)训练SL-CAI模型 。这就产生了最终的强化学习人工智能宪章(RL-CAI)模型 。
推荐阅读
- GPT-4和ChatGPT大比拼,究竟谁胜?
- 权色交易|深度解读:女色虎副行长曹艳丽,为什么钟爱“权色交易”?
- 黄晓明|黄晓明:雨露均沾,24分钟内对《浪姐4》中的33位女艺人逐一表白
- 张丹峰|唐嫣这场同学会,娱乐圈中的世态炎凉,在文章身上体现的很彻底!
- 张一山|一个生日,娱乐圈中的世态冷暖,在31岁张一山身上体现得淋漓尽致
- 莫妮卡·贝鲁奇|曾经美到迷倒全世界,如今沦为大众眼中的“老阿姨”
- 娱乐圈|一个生日,娱乐圈中的世态冷暖,在72岁唐国强身上体现得淋漓尽致
- Chatgpt:AI写作系统掀起的时代浪潮
- 使用 ChatGPT AI 从英文文本生成 Linux 命令
- ChatGPT 不好用?请收下这份 Prompt 工程指南!