RLHF何以成LLM训练关键？AI大牛盘点五款平替方案，详解Llama 2反馈机制升级 _RLHF

文章插图
新智元报道
编辑：LRS
【新智元导读】AI领域日新月异，RLHF也逐渐成为过时的技术，但新路线尚不明朗：应该采用无需人工的反馈，还是继续改进RLHF机制？
在ChatGPT引领的大型语言模型时代，一个绕不过去的话题就是「基于人类反馈的强化学习」（RLHF），不仅提升了语言模型的性能，也将人类社会的价值观注入到模型中，使得语言模型能够帮助用户解决问题，提高模型的安全性。
不过在ChatGPT之后，大量模型和相关技术不断发布，RLHF也早已更新换代，并衍生出来一些无需人工的微调方法，效果提升也很明显。
最近，Lightning AI创始人、AI研究大牛Sebastian Raschka发表了一篇博客，描述了Llama 2中的RLHF机制和原版相比做出了哪些改变和提升，还介绍了几个RLHF算法的替代方案。
【RLHF何以成LLM训练关键？AI大牛盘点五款平替方案，详解Llama 2反馈机制升级】

文章插图
经典LLM的训练流程
目前最先进的、基于Transformer的大型语言模型，例如ChatGPT或Llama 2，大体都包括三个训练步骤：预训练，有监督微调和对齐。
在预训练阶段，模型会吸收来自海量、无标注文本数据集的知识，然后使用有监督微调细化模型以更好地遵守特定指令；最后使用对齐技术使LLM可以更有用且更安全地响应用户提示。
1. 预训练（Pretraining）
预训练阶段通常需要包含数十亿到数万亿个token的庞大文本语料库，但训练目标只是一个简单的「下一个单词预测」（next word prediction）任务，模型需要根据提供的文本来预测后续单词或token 。

文章插图
自监督预训练可以让模型从大规模的数据中学习，只要能够在不侵犯版权，或是无视创造者偏好的情况下收集到数据，就可以不依赖人工标注完成训练，因为训练标签实际上就是文本的后续单词，已经暗含在数据集中了。
2. 有监督微调（Supervised f.NETuning）
第二阶段大体上来看也是「next token prediction」任务，不过需要人工标注的指令数据集，其中模型的输入是一个指令（根据任务的不同，也可能包含一段文本），输出为模型的预期回复内容。

文章插图
数据形式类似于：

Instruction: "Write a about a pelican."
使用说明：“写一首关于鹈鹕的打油诗。“
Output: "There once was a pelican so fine..."
输出：“从前有一只鹈鹕很好...“

模型会将指令文本作为输入，并逐个token输出，训练目标是与预期输出相同。
虽然两个阶段都采用相似的训练目标，但有监督微调数据集通常比预训练数据小得多，指令数据集需要人类（或其他高质量的LLM）提供标注结果，所以无法大规模应用。
3. 对齐（Alignment）
第三阶段依然是微调，不过其主要目标在于将语言模型与人类的偏好、价值观进行对齐，也是RLHF机制发挥作用的地方。

文章插图
RLHF主要包括三步：
Step 1. 预训练模型的有监督微调
先收集一个提示词集合，并要求标注人员写出高质量的回复，然后使用该数据集以监督的方式微调预训练的基础模型。

文章插图
Step 2. 创建奖励模型
对于每个提示，要求微调后的LLM生成四到九个回复，再由标注人员根据个人偏好对所有回复进行排序。

文章插图
虽然排序过程很耗时，但工作量还是比第一步的数据集构建少一些。
在处理排序结果时，可以设计一个奖励模型RM，将微调语言模型SFT的输出通过一个回归层（单个输出节点）转换为奖励分数，用于后续优化。
Step 3.PPO微调
使用邻近策略优化（PPO，proximal policy optimization ），根据奖励模型提供的奖励分数对SFT模型进一步优化。