解读大模型的微调( 三 ) _大模型

4.RHLF在人类反馈增强学习中，预训练模型使用监督学习和强化学习相结合进行微调。这种方法是由原始的ChatGPT模型推广而来，而该模型又基于InstructGPT 。RLHF通过让人类对不同的模型输出进行排名或评分来收集人类反馈，从而提供奖励信号。然后，可以使用收集的奖励标签来训练奖励模型，进而指导LLM对人类偏好的适应。
奖励模型本身是通过监督学习进行学习的，通常使用预训练的LLM作为基本模型。接下来，奖励模型用于更新预训练的LLM，以适应人类的偏好。训练使用了一种称为近端策略优化的强化学习方法。InstructGPT论文中概述了RLHF的过程。

文章插图

为什么要使用奖励模型而不是直接训练预先训练好的模型并使用人类反馈？主要原因是将人类纳入学习过程会造成瓶颈，我们无法实时获取反馈。
5.小结微调预训练LLM的所有层仍然是适应新目标任务的黄金准则。但是，诸如基于特征的方法、上下文学习和参数高效微调技术等方法，可以在最小化计算成本和资源的同时，有效地将LLM应用到新任务中。此外，带有人类反馈的强化学习（RLHF）作为有监督微调的替代方法，也可以提高模型性能。
【参考资料】

A Survey on In-context Learning，https://arxiv.org/pdf/2301.00234.pdf
LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS，https://arxiv.org/pdf/2106.09685.pdf
Prefix-Tuning: Optimizing Continuous Prompts for Generation, https://aclanthology.org/2021.acl-long.353
P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and Tasks，https://arxiv.org/pdf/2110.07602.pdf
The Power of Scale for Parameter-Efficient Prompt Tuning，https://arxiv.org/pdf/2104.08691.pdf
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding,https://arxiv.org/abs/1810.04805
https://Github.com/huggingface/peft
https://github.com/rasbt