麻省理工学院和香港中文大学联合发布了LongLoRA,这是一种全新的微调方法,可以增强大语言模型的上下文能力,而无需消耗大量算力资源 。
通常 , 想增加大语言模型的上下文处理能力 , 需要更多的算力支持 。例如 , 将上下文长度从2048扩展至8192,需要多消耗16倍算力 。
LongLoRA在开源模型LLaMA2 7B/13B/70B上进行了试验,将上下文原始长度扩展至32K、64K、100K,所需要的算力资源却很少 。
开源地址:https://Github.com/dvlab-research/LongLoRA
论文地址:https://arxiv.org/abs/2309.12307
文章插图
LongLoRA的高效微调方法
根据LongLoRA的论文介绍,采用了两大步骤完成了高效微调 。第一,在训练期间使用一种更简单的注意力形式(聚焦于特定信息),开发者称之为转变短注意力(S2-Attn) 。
这种新的注意力方法有助于节省大量的计算能力,而且几乎与常规的注意力方法一样有效,在训练过程中发挥了重要作用 。
文章插图
第二,重新挖掘了一种有效扩大上下文(用于训练的信息量)的方法 。开发人员发现,一种名为LoRA的方法对此非常有效,尤其是当与可训练的嵌入和规范化一起使用时 。
LongLoRA在各种任务上都显示出了优异的结果,可以与不同大小的LLMs一起使用 。它可以将用于训练的数据量从4k增加到100k,对于另一个模型,可以增加到32k,所有这些都在一台强大的计算机机器上完成 。此外,它与其他现有技术兼容性很强,并不会改变原始模型设计架构 。
此外,为了让 LongLoRA 更加实用、高效,开发者还整理了一个名为 LongQA 的数据集,其中包含 3000 多对用于训练的问题和答案 。这使得 LongLoRA 还能有效改进大语言模型的输出能力 。
文章插图
研究发现
该研究评估了Proof-pile 和 PG19数据集上的不同模型 。研究发现,在训练过程中,随着上下文大小的增加,模型的表现更好,显示了其微调方法的有效性 。
简单来说,使用更多信息进行训练,将会带来更好的结果 。例如,当上下文窗口大小从 8192 增加到 32768 时,一个模型的困惑度性能从 2.72 提高到 2.50 。
该研究还探讨了这些模型可以在一台机器上处理多少上下文 。开发人员扩展了模型以处理极长的上下文,并发现模型仍然表现良好,尽管上下文尺寸较小时性能有所下降 。
文章插图
除了语言建模之外,该研究还测试了其他任务,包括在很长的对话中找到特定的主题 。开发人员的模型在这项任务中的表现与最先进的模型类似,甚至在某些情况下表现得更好 。值得一提的是,与竞争对手相比 , 开发人员的模型能够更有效地适应开源数据 。
LongLoRA表明,大模型能够处理的信息越多 , 理解语言的能力就越强 。并且它不仅擅长处理长文本,而且LongLoRA也非常擅长在长对话中找到特定的主题 。这表明它可以处理现实世界中复杂而混乱的任务 。
但因为加大了上下文窗口,所以LongLoRA在处理较短的文本片段时会有一些问题,这个问题作者还没有找到原因 。
文章插图
总体来说,LongLoRA 在大型语言模型领域提出了创新方法,在处理大量信息时,也可以更轻松、更高效地微调这些模型,而必须消耗更多的算力资源 。
本文素材来源LongLoRA论文,如有侵权请联系删
【LongLoRA:超长上下文,大语言模型高效微调方法】
推荐阅读
- 杨幂月红篇首发预告很诚意!女配郭晓婷、陈瑶、祝绪丹造型超长发挥,全员大美人!
- 好听的超长网名 好听的超长昵称
- 王宝强疑得罪半个娱乐圈,于冬点评其“超长点映”,猫眼或主谋
- 撕破脸了!王宝强遭业内大佬公开内涵,超长点映得罪大半电影圈
- 解决MySQL数据库字段超长问题的终极指南:一劳永逸的解决方案!
- 《八角笼中》超长点映,难以复制的成功?
- 林志玲一家三口首度同框!一岁半儿子全身照曝光,皮肤白皙腿超长
- 赌王四太携子现身机场,4岁孙儿小腿超长,紧牵保姆手显依恋
- 杨丽萍|杨丽萍造型引争议!超长指甲拿咖啡掉落不管,助理蹲地打扫显卑微
- 卸妆|钟丽缇公开卸妆被疑“伪素颜”,超长眼睫毛紧贴脸引热议