4.RHLF在人类反馈增强学习中,预训练模型使用监督学习和强化学习相结合进行微调 。这种方法是由原始的ChatGPT模型推广而来,而该模型又基于InstructGPT 。RLHF通过让人类对不同的模型输出进行排名或评分来收集人类反馈,从而提供奖励信号 。然后,可以使用收集的奖励标签来训练奖励模型,进而指导LLM对人类偏好的适应 。
奖励模型本身是通过监督学习进行学习的,通常使用预训练的LLM作为基本模型 。接下来,奖励模型用于更新预训练的LLM,以适应人类的偏好 。训练使用了一种称为近端策略优化的强化学习方法 。InstructGPT论文中概述了RLHF的过程 。
文章插图
为什么要使用奖励模型而不是直接训练预先训练好的模型并使用人类反馈?主要原因是将人类纳入学习过程会造成瓶颈,我们无法实时获取反馈 。
5.小结微调预训练LLM的所有层仍然是适应新目标任务的黄金准则 。但是,诸如基于特征的方法、上下文学习和参数高效微调技术等方法,可以在最小化计算成本和资源的同时,有效地将LLM应用到新任务中 。此外,带有人类反馈的强化学习(RLHF)作为有监督微调的替代方法,也可以提高模型性能 。
【参考资料】
- A Survey on In-context Learning,https://arxiv.org/pdf/2301.00234.pdf
- LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS,https://arxiv.org/pdf/2106.09685.pdf
- Prefix-Tuning: Optimizing Continuous Prompts for Generation, https://aclanthology.org/2021.acl-long.353
- P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and Tasks,https://arxiv.org/pdf/2110.07602.pdf
- The Power of Scale for Parameter-Efficient Prompt Tuning,https://arxiv.org/pdf/2104.08691.pdf
- BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding,https://arxiv.org/abs/1810.04805
- https://Github.com/huggingface/peft
- https://github.com/rasbt
推荐阅读
- 计算机网络和计算机通信网络之间的本质区别是什么?
- 曾经风靡一时的ghost系统,为什么销声匿迹了?
- 一文看懂显卡的显存容量/频率/位宽/带宽
- 戴上2万5的苹果头显,我只看到了库克的焦虑
- 编程的未来 - 还有未来么?
- 陈俊生|柳州蓝澜什么家底什么身份,素颜照判若两人,梁局的父母很着急
- 蜂王浆|蜂王浆的价格,它的价值和价格是否对等
- 苏芒|不可一世的苏芒,也走到了今天
- 求职|北大教授建议:暂时找不到工作的年轻人,可先结婚生子,你同意吗
- |不走寻常路!十种反常规的特色和田玉!