RLHF何以成LLM训练关键？AI大牛盘点五款平替方案，详解Llama 2反馈机制升级( 三 ) _RLHF

直接偏好优化（DPO）是使用PPO的RLHF的替代方案，实验结果显示，用于拟合RLHF中的奖励模型的交叉熵损失可以直接用于微调LLM，并且DPO更有效，在回复生成质量方面通常也优于RLHF/PPO

文章插图
论文标题：Direct Preference Optimization: Your Language Model is Secretly a Reward Model
论文链接：https://arxiv.org/abs/2305.18290
发表日期：2023年5月
4. 强化自训练（ReST）
ReST是RLHF的替代方案，可以将LLM与人类偏好对齐，其使用采样方法来创建一个改进的数据集，在质量越来越高的子集上迭代训练，以完善其奖励函数。

文章插图
论文标题：Reinforced Self-Training (ReST) for Language Modeling
论文链接：https://arxiv.org/abs/2308.08998
发表日期：2023年8月
根据作者的说法，ReST通过离线生成其训练数据集，与标准在线RLHF方法（PPO）相比，实现了更高的效率，但缺少与InstructGPT或Llama 2中使用的标准RLHF PPO方法的全面比较。
5. 基于人工智能反馈的强化学习
基于人工智能反馈的强化学习（RLAIF）的研究表明，RLHF中奖励模型训练的评级不一定必须由人类提供，也可以由LLM生成（如PaLM 2）。

文章插图
论文标题：RLAIF：Scaling Reinforcement Learning from Human Feedback with AI Feedback
论文链接：https://arxiv.org/abs/2309.00267
发表日期：2023年9月
标注人员在一半的案例中更喜欢RLAIF模型，也就意味着两个模型的差距并不大，并且RLHF和RLAIF都大大优于纯粹通过监督指令微调训练的模型。
这项研究的结果是非常有用的，基本上意味着我们可以更容易获得RLHF的训练数据，不过RLAIF模型如何在定性研究中表现还有待观察，这项研究侧重于信息内容的安全性和真实性，只是对人类偏好研究的部分捕获。
但这些替代方案在实践中是否有价值还有待观察，因为目前还没有哪个模型可以不用RLHF的情况下，取得与Llama 2和Code Llama相近的性能。
参考资料：
https://magazine.sebastianraschka.com/p/llm-training-rlhf-and-its-alternatives