RLHF何以成LLM训练关键?AI大牛盘点五款平替方案,详解Llama 2反馈机制升级( 三 )


直接偏好优化(DPO)是使用PPO的RLHF的替代方案,实验结果显示,用于拟合RLHF中的奖励模型的交叉熵损失可以直接用于微调LLM,并且DPO更有效,在回复生成质量方面通常也优于RLHF/PPO

RLHF何以成LLM训练关键?AI大牛盘点五款平替方案,详解Llama 2反馈机制升级

文章插图
论文标题:Direct Preference Optimization: Your Language Model is Secretly a Reward Model
论文链接:https://arxiv.org/abs/2305.18290
发表日期:2023年5月
4. 强化自训练(ReST)
ReST是RLHF的替代方案 , 可以将LLM与人类偏好对齐,其使用采样方法来创建一个改进的数据集,在质量越来越高的子集上迭代训练,以完善其奖励函数 。
RLHF何以成LLM训练关键?AI大牛盘点五款平替方案,详解Llama 2反馈机制升级

文章插图
论文标题:Reinforced Self-Training (ReST) for Language Modeling
论文链接:https://arxiv.org/abs/2308.08998
发表日期:2023年8月
根据作者的说法,ReST通过离线生成其训练数据集 , 与标准在线RLHF方法(PPO)相比,实现了更高的效率 , 但缺少与InstructGPT或Llama 2中使用的标准RLHF PPO方法的全面比较 。
5. 基于人工智能反馈的强化学习
基于人工智能反馈的强化学习(RLAIF)的研究表明,RLHF中奖励模型训练的评级不一定必须由人类提供,也可以由LLM生成(如PaLM 2) 。
RLHF何以成LLM训练关键?AI大牛盘点五款平替方案,详解Llama 2反馈机制升级

文章插图
论文标题:RLAIF:Scaling Reinforcement Learning from Human Feedback with AI Feedback
论文链接:https://arxiv.org/abs/2309.00267
发表日期:2023年9月
标注人员在一半的案例中更喜欢RLAIF模型,也就意味着两个模型的差距并不大,并且RLHF和RLAIF都大大优于纯粹通过监督指令微调训练的模型 。
这项研究的结果是非常有用的,基本上意味着我们可以更容易获得RLHF的训练数据 , 不过RLAIF模型如何在定性研究中表现还有待观察,这项研究侧重于信息内容的安全性和真实性 , 只是对人类偏好研究的部分捕获 。
但这些替代方案在实践中是否有价值还有待观察,因为目前还没有哪个模型可以不用RLHF的情况下,取得与Llama 2和Code Llama相近的性能 。
参考资料:
https://magazine.sebastianraschka.com/p/llm-training-rlhf-and-its-alternatives




推荐阅读