文章插图
新智元报道
编辑:LRS
【新智元导读】AI领域日新月异,RLHF也逐渐成为过时的技术 , 但新路线尚不明朗:应该采用无需人工的反馈,还是继续改进RLHF机制?
在ChatGPT引领的大型语言模型时代,一个绕不过去的话题就是「基于人类反馈的强化学习」(RLHF),不仅提升了语言模型的性能,也将人类社会的价值观注入到模型中,使得语言模型能够帮助用户解决问题,提高模型的安全性 。
不过在ChatGPT之后,大量模型和相关技术不断发布,RLHF也早已更新换代,并衍生出来一些无需人工的微调方法,效果提升也很明显 。
最近,Lightning AI创始人、AI研究大牛Sebastian Raschka发表了一篇博客 , 描述了Llama 2中的RLHF机制和原版相比做出了哪些改变和提升,还介绍了几个RLHF算法的替代方案 。
【RLHF何以成LLM训练关键?AI大牛盘点五款平替方案,详解Llama 2反馈机制升级】
文章插图
经典LLM的训练流程
目前最先进的、基于Transformer的大型语言模型,例如ChatGPT或Llama 2,大体都包括三个训练步骤:预训练,有监督微调和对齐 。
在预训练阶段,模型会吸收来自海量、无标注文本数据集的知识,然后使用有监督微调细化模型以更好地遵守特定指令;最后使用对齐技术使LLM可以更有用且更安全地响应用户提示 。
1. 预训练(Pretraining)
预训练阶段通常需要包含数十亿到数万亿个token的庞大文本语料库,但训练目标只是一个简单的「下一个单词预测」(next word prediction)任务,模型需要根据提供的文本来预测后续单词或token 。
文章插图
自监督预训练可以让模型从大规模的数据中学习 , 只要能够在不侵犯版权 , 或是无视创造者偏好的情况下收集到数据,就可以不依赖人工标注完成训练 , 因为训练标签实际上就是文本的后续单词,已经暗含在数据集中了 。
2. 有监督微调(Supervised f.NETuning)
第二阶段大体上来看也是「next token prediction」任务 , 不过需要人工标注的指令数据集,其中模型的输入是一个指令(根据任务的不同,也可能包含一段文本),输出为模型的预期回复内容 。
文章插图
数据形式类似于:
Instruction: "Write a about a pelican."模型会将指令文本作为输入,并逐个token输出,训练目标是与预期输出相同 。
使用说明:“写一首关于鹈鹕的打油诗 。“
Output: "There once was a pelican so fine..."
输出:“从前有一只鹈鹕很好...“
虽然两个阶段都采用相似的训练目标,但有监督微调数据集通常比预训练数据小得多 , 指令数据集需要人类(或其他高质量的LLM)提供标注结果 , 所以无法大规模应用 。
3. 对齐(Alignment)
第三阶段依然是微调 , 不过其主要目标在于将语言模型与人类的偏好、价值观进行对齐,也是RLHF机制发挥作用的地方 。
文章插图
RLHF主要包括三步:
Step 1. 预训练模型的有监督微调
先收集一个提示词集合,并要求标注人员写出高质量的回复,然后使用该数据集以监督的方式微调预训练的基础模型 。
文章插图
Step 2. 创建奖励模型
对于每个提示,要求微调后的LLM生成四到九个回复,再由标注人员根据个人偏好对所有回复进行排序 。
文章插图
虽然排序过程很耗时,但工作量还是比第一步的数据集构建少一些 。
在处理排序结果时,可以设计一个奖励模型RM,将微调语言模型SFT的输出通过一个回归层(单个输出节点)转换为奖励分数 , 用于后续优化 。
Step 3.PPO微调
使用邻近策略优化(PPO,proximal policy optimization ),根据奖励模型提供的奖励分数对SFT模型进一步优化 。
文章插图
PPO的具体技术细节可以参考InstructGPT或下面的论文列表 。
推荐阅读
- GPT-4终结人工标注!AI标注比人类标注效率高100倍,成本仅1/7
- 智能体 DeepMind联合创始人:生成式AI只是一个阶段,接下来是交互式AI可通过调用其他软件和其他人来完成为他们设置的任务
- 恭喜!TVB三知名男星在内地卖鸡蛋仔,半年不到成功开五家分店
- 教师医生成抢手货,新兴职业为何失宠?
- 十一出游,粉色套装穿搭优雅迷人,成为旅途中的一道亮丽风景线
- 初秋穿搭,黑色针织衫搭配百褶裙,让你成为人群中的焦点
- 几款秋日必备外套,让你成为人群中的时尚焦点
- 巴黎疯马秀简史
- 为斩草除根,成龙对乞讨为生的女儿下“毒手”,简直丧尽天良!
- 孙东海回应和张柏芝抢抚养权之事,两人多次同框带孩子成为话柄!