能像乐高一样组合，LoraHub挖掘LoRA 模块化特性( 二 )

2023-08-05 LoraHub

评估
研究者对新提出的方法进行了评估，其使用的 LLM 是 Flan-T5 。
表 1 给出了实验数据，可以看到，新方法的功效接近零样本学习，同时在少样本场景中的性能表现又接近上下文学习。这一观察结论基于五次不同实验的平均结果。

能像乐高一样组合，LoraHub挖掘LoRA 模块化特性

文章插图
表 1：零样本学习（Zero）、少样本上下文学习（ICL）和新提出的少样本 LoraHub 学习的性能表现对比。
需要重点指出，实验中，使用新方法的模型使用的 token 数量与零样本方法一样，明显少于上下文学习所用的 token 数。尽管性能表现偶尔会有波动变化，但新方法的表现在大多数实例中都优于零样本学习。新方法真正出彩的地方是其最优表现超越了上下文学习，但使用的 token 却更少。在 LLM 时代，推理成本与输入长度成正比，因此 LoraHub 能经济地利用输入 token 达到接近最佳性能的能力会越来越重要。
如图 3 所示，当未曾见过的任务的示例数量低于 20 时，新方法的表现大体上都优于 LoRA 微调。

能像乐高一样组合，LoraHub挖掘LoRA 模块化特性

文章插图
图 3：传统微调（FFT）、LoRA 微调（LoRA）和新提出的 LoraHub 学习（Ours）在不同数量的任务示例下的表现对比。

【能像乐高一样组合，LoraHub挖掘LoRA 模块化特性】

推荐阅读

上一篇：数智商业技术2.0时代的新「三驾马车」,阿里妈妈郑波谈如何把握生成式大模型

下一篇：大型语言模型和人工智能代码生成器的兴起