直接偏好优化(DPO)是使用PPO的RLHF的替代方案,实验结果显示,用于拟合RLHF中的奖励模型的交叉熵损失可以直接用于微调LLM,并且DPO更有效,在回复生成质量方面通常也优于RLHF/PPO
文章插图
论文标题:Direct Preference Optimization: Your Language Model is Secretly a Reward Model
论文链接:https://arxiv.org/abs/2305.18290
发表日期:2023年5月
4. 强化自训练(ReST)
ReST是RLHF的替代方案 , 可以将LLM与人类偏好对齐,其使用采样方法来创建一个改进的数据集,在质量越来越高的子集上迭代训练,以完善其奖励函数 。
文章插图
论文标题:Reinforced Self-Training (ReST) for Language Modeling
论文链接:https://arxiv.org/abs/2308.08998
发表日期:2023年8月
根据作者的说法,ReST通过离线生成其训练数据集 , 与标准在线RLHF方法(PPO)相比,实现了更高的效率 , 但缺少与InstructGPT或Llama 2中使用的标准RLHF PPO方法的全面比较 。
5. 基于人工智能反馈的强化学习
基于人工智能反馈的强化学习(RLAIF)的研究表明,RLHF中奖励模型训练的评级不一定必须由人类提供,也可以由LLM生成(如PaLM 2) 。
文章插图
论文标题:RLAIF:Scaling Reinforcement Learning from Human Feedback with AI Feedback
论文链接:https://arxiv.org/abs/2309.00267
发表日期:2023年9月
标注人员在一半的案例中更喜欢RLAIF模型,也就意味着两个模型的差距并不大,并且RLHF和RLAIF都大大优于纯粹通过监督指令微调训练的模型 。
这项研究的结果是非常有用的,基本上意味着我们可以更容易获得RLHF的训练数据 , 不过RLAIF模型如何在定性研究中表现还有待观察,这项研究侧重于信息内容的安全性和真实性 , 只是对人类偏好研究的部分捕获 。
但这些替代方案在实践中是否有价值还有待观察,因为目前还没有哪个模型可以不用RLHF的情况下,取得与Llama 2和Code Llama相近的性能 。
参考资料:
https://magazine.sebastianraschka.com/p/llm-training-rlhf-and-its-alternatives
推荐阅读
- GPT-4终结人工标注!AI标注比人类标注效率高100倍,成本仅1/7
- 智能体 DeepMind联合创始人:生成式AI只是一个阶段,接下来是交互式AI可通过调用其他软件和其他人来完成为他们设置的任务
- 恭喜!TVB三知名男星在内地卖鸡蛋仔,半年不到成功开五家分店
- 教师医生成抢手货,新兴职业为何失宠?
- 十一出游,粉色套装穿搭优雅迷人,成为旅途中的一道亮丽风景线
- 初秋穿搭,黑色针织衫搭配百褶裙,让你成为人群中的焦点
- 几款秋日必备外套,让你成为人群中的时尚焦点
- 巴黎疯马秀简史
- 为斩草除根,成龙对乞讨为生的女儿下“毒手”,简直丧尽天良!
- 孙东海回应和张柏芝抢抚养权之事,两人多次同框带孩子成为话柄!