文章插图
新智元报道
编辑: Lumina 桃子
【新智元导读】清华与微软合作提出了一种全新「思维骨架」(SoT),大大减少了LLM回答的延迟,并提升了回答的质量 。
由于当前先进的LLM采用了顺序解码方式,即一次生成一个词语或短语 。
然而,这种顺序解码可能花费较长生成时间,特别是在处理复杂任务时,会增加系统的延迟 。
受人类思考和写作过程的启发,来自清华微软的研究人员提出了「思维骨架」(SoT),以减少大模型的端到端的生成延迟 。
文章插图
论文地址:https://arxiv.org/pdf/2307.15337.pdf
SoT引导LLM,首先生成答案的骨架,然后进行并行API调用或分批解码,并行完成每个骨架点的内容 。
SoT不仅大大提高了速度,在11个不同的LLM中可达2.39倍,而且还可能在多样性和相关性方面提高多个问题类别的答案质量 。
研究人员称,SoT是以数据为中心优化效率的初步尝试,揭示了推动LLM更像人类一样思考答案质量的潜力 。
SoT,让大模型并行解码
目前,最先进的LLM的推理过程依旧缓慢,交互能力大大减分 。
对此,研究人员总结出LLM推理慢的3个主要原因:
- 大模型需要大量内存,内存访问和计算 。
比如,GPT-3的FP16权重需要350 GB内存,这意味着仅推理就需要5×80GB A100 GPU 。即使有足够多的GPU,繁重的内存访问和计算也会降低推理(以及训练)的速度 。
- 主流Transformer架构中的核心注意力操作受I/O约束,其内存和计算复杂度与序列长度成二次方关系 。
- 推理中的顺序解码方法逐个生成token,其中每个token都依赖于先前生成的token 。这种方法会带来很大的推理延迟,因为token的生成无法并行化 。
先前的研究中,大多将重点放在大模型规模,以及注意力操作上 。
这次,研究团队展示了,现成LLM并行解码的可行性,而无需对其模型、系统或硬件进行任何改动 。
研究人员可以通过Slack使用Claude模型将延迟时间从22秒,减少到12秒(快了1.83倍),通过A100上的Vicuna-33B V1.3将延迟时间从43秒减少到16秒(快了2.69倍) 。
文章插图
这个想法,来源于对人类自身如何回答问题的思考 。
对于我们来讲,并不总是按顺序思考问题,并写出答案 。相反,对于许多类型的问题,首先根据一些策略推导出骨架,然后添加细节来细化和说明每一点 。
那么,这一点在提供咨询、参加考试、撰写论文等正式场合中,更是如此 。
我们能够让LLM以同样的方式思考吗?
为此,研究人员提出了「思维骨架」(SoT) 。具体来说,引导LLM首先自己推导出一个骨架 。
文章插图
在骨架的基础上,LLM可以并行地完成每个点,从而提高速度 。SoT既可用于加速分批解码的开源模型,也可用于加速并行API调用的闭源模型 。
最后,研究人员在最近发布的11个LLM上测试SoT 。
结果显示,SoT不仅提供了相当大的加速度(最高可达2.39倍),而且它还可以在多样性和相关性方面提高几个问题类别的答案质量 。
文章插图
在vicuna-80的所有问题中,SoT的净胜率和与正常一代相比的速度
SoT框架
- 骨架阶段 。
SoT首先使用骨架提示模版
文章插图
,以问题q为参数,组装一个骨架请求 。编写骨架提示模板是为了引导LLM输出简洁的答案骨架 。然后,研究人员从LLM的骨架答案
文章插图
中提取B点 。
- 点扩展阶段
基于骨架,让LLM在每个点上平行展开 。
具体地说,对于带有索引b和骨架
文章插图
的点,SoT使用作为LLM的点扩展请求,其中
文章插图
是点扩展提示模板 。最后,在完成所有的点之后,研究人员连接点扩展响应来得到最终的答案 。
如下,Prompt 1和 Prompt 2显示了,研究人员当前实现使用的骨架提示模板
推荐阅读
- 把大模型装进手机,分几步?
- 国产AI大模型哪家强?十大维度横评四款主流大模型!
- 网易胡志鹏:从游戏到产业,AI大模型价值正显现
- 清华发布SmartMoE:一键实现高性能MoE稀疏大模型分布式训练
- 中科院:大模型一被夸智商就爆表!ChatGPT情商98分秒杀人类,Hinton预言成真?
- AI大模型下的人才竞争多激烈
- 苹果手机上网移动数据速度慢怎么办 苹果手机移动网络慢怎么解决
- 华为HarmonyOS 4内置AI大模型,余承东:鸿蒙生态已过万重山
- 大模型上车,AI的又一个“狼来了”?
- 半年大模型,还在天上飞