非自然指令评估(Unnatural Instruction Evaluation)
文章插图
从平均ROUGE-L得分来看 , Alpaca优于LLaMA-GPT 4和GPT-4 , 可以注意到 , LLaMA-GPT4和GPT4在ground truth回复长度增加时逐渐表现得更好 , 最终在长度超过4时表现出更高的性能 , 意味着当场景更具创造性时 , 可以更好地遵循指令 。
在不同的子集中 , LLaMA-GPT4跟GPT-4的行为相差无几;当序列长度较短时 , LLaMA-GPT4和GPT-4都能生成包含简单的基本事实答案的回复 , 但会增加额外的词语 , 使回复更像聊天 , 可能会导致ROUGE-L得分降低 。
推荐阅读
- 如何简单的去判断一个家用车底盘的好坏!
- ChatGPT文本框再次升级,打造出新型操作系统...
- 陈都灵|小S在家用餐惹争议,遭李敖女儿狠批恶心没教养,列其12条罪状
- 周扬青|何炅主持能力再封神!对话马英九轻松控场
- 无花果|护肤达人教你五步走,轻松改善皮肤肤质!
- 日常妆|五分钟轻松搞定日常妆容,精致迷人超有气质
- 轻松约女人出来的6种方法,坏男人都知道
- 求职|参透名师的专业套路,选对专业,找工作太简单,轻松月入2万
- 包青天|期待!TVB又一新剧开拍,力捧小生联手视帝打造现代版《包青天》
- Angelababy|跑男三美同框!Baby穿洛丽塔少女感爆棚轻松美出圈,白鹿红唇好显老