想让大模型在prompt中学习更多示例,这种方法能让你输入更多字符( 三 )


研究者是在 LLaMA 7B、13B、33B 和 65B 上发现这个公式的 。他们发现这个公式也能很好地适用于 LLaMA 2 模型(7B、13B 和 70B),差别很细微 。这表明这种熵增特性很常见,可以泛化到不同的模型和训练数据 。
这种最终修改方案产出了 YaRN 方法 。新方法在已微调和未微调场景中都胜过之前所有方法,而且完全不需要修改推理代码 。只需要修改一开始用于生成 RoPE 嵌入的算法 。YaRN 如此简单,使其可以在所有推理和训练库中轻松实现,包括与 Flash Attention 2 的兼容性 。
实验
实验表明 YaRN 能成功扩展 LLM 的上下文窗口 。此外,他们仅训练了 400 步就得到了这一结果,这差不多只有模型的原始预训练语料库的 0.1%,与之前的研究成果相比有大幅下降 。这说明新方法具有很高的计算效率,没有额外的推理成本 。
为了评估所得到的模型,研究者计算了长文档的困惑度,并在已有基准上进行了评分,结果发现新方法胜过所有其它上下文窗口扩展方法 。
首先,研究者评估了上下文窗口增大时模型的性能表现 。表 1 总结了实验结果 。

想让大模型在prompt中学习更多示例,这种方法能让你输入更多字符

文章插图
表 2 展示了在 50 个未截断的 GovReport 文档(长度至少为 16k token)上的最终困惑度 。
想让大模型在prompt中学习更多示例,这种方法能让你输入更多字符

文章插图
为了测试使用上下文扩展时模型性能的劣化情况,研究者使用 Hugging Face Open LLM Leaderboard 套件评估了模型,并将其与 LLaMA 2 基准模型以及公开可用的 PI 和 NTK 感知型模型的已有分数进行了比较 。表 3 总结了实验结果 。
想让大模型在prompt中学习更多示例,这种方法能让你输入更多字符

文章插图

【想让大模型在prompt中学习更多示例,这种方法能让你输入更多字符】


推荐阅读