- Asynchronous Methods for Deep Reinforcement Learning (2016),https://arxiv.org/abs/1602.01783
- Proximal Policy Optimization Algorithms (2017),https://arxiv.org/abs/1707.06347
- Fine-Tuning Language Models from Human Preferences (2020),https://arxiv.org/abs/1909.08593
- Learning to Summarize from Human Feedback (2022) ,https://arxiv.org/abs/2009.01325
Meta AI在创建Llama-2-chat模型时也使用了RLHF技术,不过与ChatGPT相比还是有些细微区别 。
文章插图
简单来说,Llama-2-chat在第一步RLHF微调上使用相同的指令数据,但在第二步使用了两个奖励模型;通过多个阶段的不断进化 , 奖励模型也会根据Llama-2-chat模型出现的错误进行更新;并且增加了拒绝采样(rejection sampling)步骤 。
Margin Loss
在标准InstructGPT中使用的RLHF PPO方法 , 研究人员需要收集同一个提示下的4-9个模型输出并进行排序,比如四个回复的排序结果为A<C< D<B,那么就可以得到六个对比结果:A < C,A < D,A < B,C < D,C < B,D < B
Llama 2的数据集也采用类似的方式,不过标注人员每次只能看到两个(而非4-9个)回复并进行对比,但新增了一个边际(margin)标签,对比结果可以为「显著更好」(significantly better)和「好的不明显」(negligibly better) 。
在排序训练时中 , Llama 2相比InstructGPT增加了边际损失:
其中,rθ(x,y)是提示x和生成的回复y的标量分数输出; θ为模型权重; σ是将层输出转换为范围从0到1的分数的逻辑S形函数; yc是由标注人员选择的更优回复; yr是较差的回复 。
m(r)可以调节两个回复之间的差值,如果对比结果为「显著更好」,则会增加梯度值,加快更新速度 。
两种奖励模式
Llama 2中的两个奖励模型分别侧重「有用性」(helpfulness)和「安全性」(safety),用于模型优化的最终奖励函数会将两个分数进行线性组合 。
文章插图
拒绝采样(Rejection sampling)
Llama 2的作者使用了一个训练流水线,同时使用PPO和拒绝采样算法 , 迭代地产生多个RLHF模型(从RLHF-V1到RLHF-V5),模型在拒绝采样时会得到K个输出,在每次优化迭代时选择具有最高奖励的输出用于梯度更新 , 而PPO每次只基于单样本进行更新 。
文章插图
从实验结果来看,RLHF微调模型在无害性和有用性上都得到了改善,并且在最后阶段RLHF-v5使用PPO算法的性能最好 。
文章插图
RLHF的替代方案
可以看到,RLHF是一个相当复杂的过程 , 如此精心的设计是否值得?
文章插图
虽然InstructGPT和Llama 2论文实验结果中证实了RLHF带来的性能提升 , 但也有相关工作在关注开发更有效的替代品:
1. 宪政AI:人工智能反馈的无害性
研究人员提出了一种基于人类提供的规则列表的自我训练机制,也使用了强化学习的方法 。
文章插图
论文标题:Constitutional AI: Harmlessness from AI Feedback
论文链接:https://arxiv.org/abs/2212.08073
发表日期:2022年12月
上图中的「红队」(Red Team)指的是测试目标系统的防御能力,即外部或内部专家模拟潜在对手的过程 , 通过模仿现实世界攻击者的战术、技术和程序来挑战、测试并最终改进系统 。
2. 后见之明的智慧
研究人员提出了一种基于重新标注的有监督方法HIR用于微调,在12个BigBench任务上都优于RLHF算法 。
文章插图
论文标题:The Wisdom of Hindsight Makes Language Models Better Instruction Followers
论文链接:https://arxiv.org/abs/2302.05206
发表时间:2023年2月
HIR方法包括两个步骤,采样和训练:在采样时,提示和指令被馈送到LLM以收集回复,并基于对齐分数,在训练阶段适当的地方重新标注指令;然后使用新指令和原始提示用于微调LLM 。
重新标注可以有效地将失败案例(LLM创建的输出与原始指令不匹配的情况)转化为有用的训练数据以用于监督学习 。
3. 直接偏好优化
推荐阅读
- GPT-4终结人工标注!AI标注比人类标注效率高100倍,成本仅1/7
- 智能体 DeepMind联合创始人:生成式AI只是一个阶段,接下来是交互式AI可通过调用其他软件和其他人来完成为他们设置的任务
- 恭喜!TVB三知名男星在内地卖鸡蛋仔,半年不到成功开五家分店
- 教师医生成抢手货,新兴职业为何失宠?
- 十一出游,粉色套装穿搭优雅迷人,成为旅途中的一道亮丽风景线
- 初秋穿搭,黑色针织衫搭配百褶裙,让你成为人群中的焦点
- 几款秋日必备外套,让你成为人群中的时尚焦点
- 巴黎疯马秀简史
- 为斩草除根,成龙对乞讨为生的女儿下“毒手”,简直丧尽天良!
- 孙东海回应和张柏芝抢抚养权之事,两人多次同框带孩子成为话柄!