「指令」(Instruction)是ChatGPT模型取得突破性进展的关键因素 , 可以让语言模型的输出更符合「人类的偏好」 。
但指令的标注工作需要耗费大量的人力 , 即便有了开源的语言模型 , 资金不足的学术机构、小公司也很难训练出自己ChatGPT.
最近微软的研究人员利用之前提出的Self-Instruct技术 , 首次尝试使用GPT-4模型来自动生成语言模型所需的微调指令数据 。
文章插图
论文链接:https://arxiv.org/pdf/2304.03277.pdf
代码链接:https://Github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM
在基于Meta开源的LLaMA模型上的实验结果表明 , 由 GPT-4生成的5.2万条英语和汉语instruction-following数据在新任务中的表现优于以前最先进的模型生成的指令数据 , 研究人员还从GPT-4中收集反馈和比较数据 , 以便进行全面的评估和奖励模式训练 。
训练数据数据收集
研究人员重用了斯坦福大学发布的Alpaca模型用到的5.2万条指令 , 其中每条指令都描述了模型应该执行的任务 , 并遵循与Alpaca相同的prompting策略 , 同时考虑有输入和无输入的情况 , 作为任务的可选上下文或输入;使用大型语言模型对指令输出答案 。
文章插图
在Alpaca 数据集中 , 输出是使用GPT-3.5(text-davinci-003)生成的 , 但在这篇论文中 , 研究人员选择使用GPT-4来生成数据 , 具体包括以下四个数据集:
1. 英文Instruction-Following Data:对于在Alpaca中收集的5.2万条指令 , 为每一条指令都提供一个英文GPT-4答案 。
文章插图
未来的工作为遵循迭代的过程 , 使用GPT-4和self-instruct构建一个全新的数据集 。
2. 中文Instruction-Following Data:使用ChatGPT将5.2万条指令翻译成中文 , 并要求GPT-4用中文回答这些指令 , 并以此建立一个基于LLaMA的中文instruction-following模型 , 并研究指令调优的跨语言泛化能力 。
3. 对比数据(Comparison Data):要求GPT-4对自己的回复提供从1到10的评分 , 并对GPT-4, GPT-3.5和OPT-IML这三个模型的回复进行评分 , 以训练奖励模型 。
文章插图
4. 非自然指令的答案:GPT-4的答案是在6.8万条(指令 , 输入 , 输出)三元组的数据集上解码的 , 使用该子集来量化GPT-4和指令调优后的模型在规模上的差距 。
数据统计
研究人员对比了GPT-4和GPT-3.5的英语输出回复集合:对于每个输出 , 都提取了根动词(root verb)和直接宾语名词(direct-object noun) , 在每个输出集上计算了独特的动词-名词对的频率 。
文章插图
频率高于10的动词-名词对
文章插图
频率最高的25对动词-名词
文章插图
输出序列长度的频率分布对比
可以看到 , GPT-4倾向于生成比GPT-3.5更长的序列 , Alpaca中GPT-3.5数据的长尾现象比GPT-4的输出分布更明显 , 可能是因为Alpaca数据集涉及到一个迭代的数据收集过程 , 在每次迭代中去除相似的指令实例 , 在目前的一次性数据生成中是没有的 。
尽管这个过程很简单 , 但GPT-4生成的instruction-following数据表现出更强大的对齐性能 。
指令调优语言模型Self-Instruct 调优
研究人员基于LLaMA 7B checkpoint有监督微调后训练得到了两个模型:LLaMA-GPT4是在GPT-4生成的5.2万条英文instruction-following数据上训练的;LLaMA-GPT4-CN是在GPT-4的5.2万条中文instruction-following数据上训练的 。
两个模型被用来研究GPT-4的数据质量以及在一种语言中进行指令调优的LLMs时的跨语言泛化特性 。
奖励模型
从人类反馈中进行强化学习(Reinforcement Learning from Human Feedback , RLHF)旨在使LLM行为与人类的偏好相一致 , 以使语言模型的输出对人类更加有用 。
推荐阅读
- 如何简单的去判断一个家用车底盘的好坏!
- ChatGPT文本框再次升级,打造出新型操作系统...
- 陈都灵|小S在家用餐惹争议,遭李敖女儿狠批恶心没教养,列其12条罪状
- 周扬青|何炅主持能力再封神!对话马英九轻松控场
- 无花果|护肤达人教你五步走,轻松改善皮肤肤质!
- 日常妆|五分钟轻松搞定日常妆容,精致迷人超有气质
- 轻松约女人出来的6种方法,坏男人都知道
- 求职|参透名师的专业套路,选对专业,找工作太简单,轻松月入2万
- 包青天|期待!TVB又一新剧开拍,力捧小生联手视帝打造现代版《包青天》
- Angelababy|跑男三美同框!Baby穿洛丽塔少女感爆棚轻松美出圈,白鹿红唇好显老