想让大模型在prompt中学习更多示例，这种方法能让你输入更多字符( 三 ) _prompt

研究者是在 LLaMA 7B、13B、33B 和 65B 上发现这个公式的。他们发现这个公式也能很好地适用于 LLaMA 2 模型（7B、13B 和 70B），差别很细微。这表明这种熵增特性很常见，可以泛化到不同的模型和训练数据。
这种最终修改方案产出了 YaRN 方法。新方法在已微调和未微调场景中都胜过之前所有方法，而且完全不需要修改推理代码。只需要修改一开始用于生成 RoPE 嵌入的算法。YaRN 如此简单，使其可以在所有推理和训练库中轻松实现，包括与 Flash Attention 2 的兼容性。
实验
实验表明 YaRN 能成功扩展 LLM 的上下文窗口。此外，他们仅训练了 400 步就得到了这一结果，这差不多只有模型的原始预训练语料库的 0.1%，与之前的研究成果相比有大幅下降。这说明新方法具有很高的计算效率，没有额外的推理成本。
为了评估所得到的模型，研究者计算了长文档的困惑度，并在已有基准上进行了评分，结果发现新方法胜过所有其它上下文窗口扩展方法。
首先，研究者评估了上下文窗口增大时模型的性能表现。表 1 总结了实验结果。