轻松打造家用版GPT-4!微软开源微调指令集:效果不输原版,中英双语都能用( 三 )


非自然指令评估(Unnatural Instruction Evaluation)
 

轻松打造家用版GPT-4!微软开源微调指令集:效果不输原版,中英双语都能用

文章插图
 
从平均ROUGE-L得分来看 , Alpaca优于LLaMA-GPT 4和GPT-4 , 可以注意到 , LLaMA-GPT4和GPT4在ground truth回复长度增加时逐渐表现得更好 , 最终在长度超过4时表现出更高的性能 , 意味着当场景更具创造性时 , 可以更好地遵循指令 。
在不同的子集中 , LLaMA-GPT4跟GPT-4的行为相差无几;当序列长度较短时 , LLaMA-GPT4和GPT-4都能生成包含简单的基本事实答案的回复 , 但会增加额外的词语 , 使回复更像聊天 , 可能会导致ROUGE-L得分降低 。




推荐阅读