面对当前微调大模型主要依赖人类生成数据的普遍做法,谷歌 DeepMind 探索出了一种减少这种依赖的更高效方法 。如你我所见,大语言模型(LLM)正在改变深度学习的格局 , 在生成人类质量的文本和解决各种语言任务方面展现出了卓越的能力 。虽然业界通过对人类收集的数据进行监督微调进一步提升了在具体任务上的性能,但获取高质量人类数据却面临着重大瓶颈 。这对于要解决复杂问题的任务来说尤为明显,需要大量资源和专业知识 。
怎么解决呢?模型生成得合成数据是一种有潜力的替代方案,只要能保证数据的质量,就能实现可扩展性和成本效益 。
虽然 LLM 能够自我评估生成的数据,但在本文中,谷歌 DeepMind 探索了一种更简单的设置,将外部标量反馈信号用作每个生成样本的质量指标 。
【大模型微调非得依赖人类数据吗?DeepMind:用带反馈的自训练更好】
文章插图
论文地址:https://arxiv.org/pdf/2312.06585.pdf
为了研究在模型生成数据上的训练,研究者考虑了一种简单但强大的语言模型自训练方法 , 仅需要两项功能,一是基于模型生成样本,二是利用评分机制对这些样本进行评估 。
为了确保清晰度和一致性 , 研究者采用了一种强化自训练方法 ReST
推荐阅读
- 机器学习模型参数微调技术的比较研究
- 25岁孟羽童清华大学演讲,年赚400万已创办公司,变网红脸疑微调
- 周冬雨疑似微调,眼皮比以前更深了,脸颊更丰满,没有之前的气质
- 程序员学会与大模型相处,提升个人开发效率
- 生成式AI的五大模型:VAEs、GANs、Diffusion、Transformers、NeRFs
- OpenAI安全系统负责人长文梳理:大模型的对抗攻击与防御
- 开源与自研的“战火”在大模型时代重燃
- “大模型+小应用” 京东云激发AIGC生产力
- S-LoRA:一个GPU运行数千大模型成为可能
- QLORA:大模型微调的内存高效方法