研究者是在 LLaMA 7B、13B、33B 和 65B 上发现这个公式的 。他们发现这个公式也能很好地适用于 LLaMA 2 模型(7B、13B 和 70B),差别很细微 。这表明这种熵增特性很常见,可以泛化到不同的模型和训练数据 。
这种最终修改方案产出了 YaRN 方法 。新方法在已微调和未微调场景中都胜过之前所有方法,而且完全不需要修改推理代码 。只需要修改一开始用于生成 RoPE 嵌入的算法 。YaRN 如此简单,使其可以在所有推理和训练库中轻松实现,包括与 Flash Attention 2 的兼容性 。
实验
实验表明 YaRN 能成功扩展 LLM 的上下文窗口 。此外,他们仅训练了 400 步就得到了这一结果,这差不多只有模型的原始预训练语料库的 0.1%,与之前的研究成果相比有大幅下降 。这说明新方法具有很高的计算效率,没有额外的推理成本 。
为了评估所得到的模型,研究者计算了长文档的困惑度,并在已有基准上进行了评分,结果发现新方法胜过所有其它上下文窗口扩展方法 。
首先,研究者评估了上下文窗口增大时模型的性能表现 。表 1 总结了实验结果 。
文章插图
表 2 展示了在 50 个未截断的 GovReport 文档(长度至少为 16k token)上的最终困惑度 。
文章插图
为了测试使用上下文扩展时模型性能的劣化情况,研究者使用 Hugging Face Open LLM Leaderboard 套件评估了模型,并将其与 LLaMA 2 基准模型以及公开可用的 PI 和 NTK 感知型模型的已有分数进行了比较 。表 3 总结了实验结果 。
文章插图
【想让大模型在prompt中学习更多示例,这种方法能让你输入更多字符】
推荐阅读
- 比C语言还快20%!Mojo首个大模型开放下载,性能达Python版250倍
- 迟来的混元大模型,能为腾讯带来多大能量?
- 就业意向怎么填?一份好的求职意向会让你增加无数面试机会!
- 宁愿吃快餐也不碰舒淇?冯德伦被拍深夜现身街头按摩店,狗仔称网友想太多了
- 2天不看手机,在野外露天洗澡,郑恺:不想回到有手机的世界中去
- 61岁港圈“冻龄富婆”近照曝光:比起爱马仕,我更想拥有这张脸
- 香港知名女星状态冻龄,嫁富豪连生仨女,传想生四胎稳固豪门地位
- 要想大鱼跟着走,必须饵料对了口,白露后夜钓用饵三个着重点
- 她嫌丈夫丑不想要孩子,丈夫宠爱将240万交给她,女儿今20岁
- 魏秋桦饰演的黄蓉,让网友相信杨过确实对郭伯母动了心