能像乐高一样组合,LoraHub挖掘LoRA 模块化特性( 二 )


评估
研究者对新提出的方法进行了评估,其使用的 LLM 是 Flan-T5 。
表 1 给出了实验数据,可以看到,新方法的功效接近零样本学习,同时在少样本场景中的性能表现又接近上下文学习 。这一观察结论基于五次不同实验的平均结果 。

能像乐高一样组合,LoraHub挖掘LoRA 模块化特性

文章插图
表 1:零样本学习(Zero)、少样本上下文学习(ICL)和新提出的少样本 LoraHub 学习的性能表现对比 。
需要重点指出,实验中,使用新方法的模型使用的 token 数量与零样本方法一样,明显少于上下文学习所用的 token 数 。尽管性能表现偶尔会有波动变化,但新方法的表现在大多数实例中都优于零样本学习 。新方法真正出彩的地方是其最优表现超越了上下文学习,但使用的 token 却更少 。在 LLM 时代,推理成本与输入长度成正比,因此 LoraHub 能经济地利用输入 token 达到接近最佳性能的能力会越来越重要 。
如图 3 所示,当未曾见过的任务的示例数量低于 20 时,新方法的表现大体上都优于 LoRA 微调 。
能像乐高一样组合,LoraHub挖掘LoRA 模块化特性

文章插图
图 3:传统微调(FFT)、LoRA 微调(LoRA)和新提出的 LoraHub 学习(Ours)在不同数量的任务示例下的表现对比 。

【能像乐高一样组合,LoraHub挖掘LoRA 模块化特性】


推荐阅读