轻松打造家用版GPT-4!微软开源微调指令集:效果不输原版,中英双语都能用( 二 )


RLHF的一个关键组成部分是奖励建模 , 其问题可以被表述为一个回归任务 , 以预测给定提示和回复的奖励评分 , 该方法通常需要大规模的比较数据 , 即对同一提示的两个模型反应进行比较 。
现有的开源模型 , 如Alpaca、Vicuna和Dolly , 由于标注对比数据的成本很高 , 所以没有用到RLHF , 并且最近的研究表明 , GPT-4能够识别和修复自己的错误 , 并准确判断回复的质量 。
 

轻松打造家用版GPT-4!微软开源微调指令集:效果不输原版,中英双语都能用

文章插图
 
为了促进对RLHF的研究 , 研究人员使用GPT-4创建了对比数据;为了评估数据质量 , 研究人员训练一个基于OPT 1.3B的奖励模型 , 以对不同的回复进行评分:对一个提示和K个回复 , GPT-4为每个回复提供一个1到10之间的评分 。
实验结果【轻松打造家用版GPT-4!微软开源微调指令集:效果不输原版,中英双语都能用】在 GPT-4数据上评估以前从未见过的任务的self-instruct调优模型的性能仍然是一项困难的任务 。
由于主要目标是评估模型理解和遵守各种任务指示的能力 , 为了实现这一点 , 研究人员利用三种类型的评估 , 并通过研究结果证实 , 「利用 GPT-4生成数据」相比其他机器自动生成的数据来说是一种有效的大型语言模型指令调优方法 。
人类评估
为了评估该指令调优后的大型语言模型对齐质量 , 研究人员遵循之前提出的对齐标准:如果一个助手是有帮助的、诚实的和无害的(HHH) , 那它就是与人类评估标准对齐的 , 这些标准也被广泛用于评估人工智能系统与人类价值观的一致性程度 。
帮助性(helpfulness):是否能帮助人类实现他们的目标 , 一个能够准确回答问题的模型是有帮助的 。
诚实性(honesty):是否提供真实信息 , 并在必要时表达其不确定性以避免误导人类用户 , 一个提供虚假信息的模型是不诚实的 。
无害性(harmlessness):是否不会对人类造成伤害 , 一个产生仇恨言论或提倡暴力的模型不是无害的 。
基于HHH对齐标准 , 研究人员使用众包平台Amazon Mechanical Turk对模型生成结果进行人工评估 。
 
轻松打造家用版GPT-4!微软开源微调指令集:效果不输原版,中英双语都能用

文章插图
 
文中提出的两个模型分别在GPT-4和GPT-3生成的数据上进行了微调 , 可以看到LLaMA-GPT4以51.2%的占比在帮助性上要大大优于在GPT-3上微调的Alpaca(19.74%) , 而在诚实性和 无害性标准下 , 则基本处于平局状态 , GPT-3要略胜一筹 。
 
轻松打造家用版GPT-4!微软开源微调指令集:效果不输原版,中英双语都能用

文章插图
 
在和原版GPT-4对比时 , 可以发现二者在三个标准上也是相当一致的 , 即GPT-4指令调优后的LLaMA表现与原始的GPT-4类似 。
GPT-4自动评估
受 Vicuna 的启发 , 研究人员也选择用GPT-4来评估不同聊天机器人模型对80个未见过的问题所生成回答的质量 , 从 LLaMA-GPT-4(7B)和 GPT-4模型中收集回复 , 并从以前的研究中获得其他模型的答案 , 然后要求GPT-4对两个模型之间的回复质量进行评分 , 评分范围从1到10 , 并将结果与其他强竞争模型(ChatGPT 和 GPT-4)进行比较 。
 
轻松打造家用版GPT-4!微软开源微调指令集:效果不输原版,中英双语都能用

文章插图
 
评估结果显示 , 反馈数据和奖励模型对提高 LLaMA 的性能是有效的;用GPT-4对LLaMA进行指令调优 , 往往比用text-davinci-003调优(即Alpaca)和不调优(即LLaMA)的性能更高;7B LLaMA GPT4的性能超过了13B Alpaca和LLaMA , 但和GPT-4等大型商业聊天机器人相比 , 仍有差距 。
 
轻松打造家用版GPT-4!微软开源微调指令集:效果不输原版,中英双语都能用

文章插图
 
进一步研究中文聊天机器人的性能时 , 首先使用GPT-4将聊天机器人的问题也从英文翻译成中文 , 用GPT-4获得答案 , 可以得到两个有趣的观察结果:
1. 可以发现GPT-4评价的相对分数指标是相当一致的 , 无论是在不同的对手模型(即ChatGPT或GPT-4)和语言(即英语或中文)方面 。
2. 仅就GPT-4的结果而言 , 翻译后的回复比中文生成的回复表现得更好 , 可能是因为GPT-4是在比中文更丰富的英文语料库中训练的 , 所以具有更强的英文instruction-following能力 。


推荐阅读