大模型速度狂飙2.39倍！清华联手微软首提SoT，让LLM思考更像人类 _大模型

文章插图
新智元报道
编辑： Lumina 桃子
【新智元导读】清华与微软合作提出了一种全新「思维骨架」(SoT)，大大减少了LLM回答的延迟，并提升了回答的质量。
由于当前先进的LLM采用了顺序解码方式，即一次生成一个词语或短语。
然而，这种顺序解码可能花费较长生成时间，特别是在处理复杂任务时，会增加系统的延迟。
受人类思考和写作过程的启发，来自清华微软的研究人员提出了「思维骨架」（SoT），以减少大模型的端到端的生成延迟。

文章插图
论文地址：https://arxiv.org/pdf/2307.15337.pdf
SoT引导LLM，首先生成答案的骨架，然后进行并行API调用或分批解码，并行完成每个骨架点的内容。
SoT不仅大大提高了速度，在11个不同的LLM中可达2.39倍，而且还可能在多样性和相关性方面提高多个问题类别的答案质量。
研究人员称，SoT是以数据为中心优化效率的初步尝试，揭示了推动LLM更像人类一样思考答案质量的潜力。
SoT，让大模型并行解码
目前，最先进的LLM的推理过程依旧缓慢，交互能力大大减分。
对此，研究人员总结出LLM推理慢的3个主要原因：
- 大模型需要大量内存，内存访问和计算。
比如，GPT-3的FP16权重需要350 GB内存，这意味着仅推理就需要5×80GB A100 GPU 。即使有足够多的GPU，繁重的内存访问和计算也会降低推理（以及训练）的速度。
- 主流Transformer架构中的核心注意力操作受I/O约束，其内存和计算复杂度与序列长度成二次方关系。
- 推理中的顺序解码方法逐个生成token，其中每个token都依赖于先前生成的token 。这种方法会带来很大的推理延迟，因为token的生成无法并行化。
先前的研究中，大多将重点放在大模型规模，以及注意力操作上。
这次，研究团队展示了，现成LLM并行解码的可行性，而无需对其模型、系统或硬件进行任何改动。
研究人员可以通过Slack使用Claude模型将延迟时间从22秒，减少到12秒（快了1.83倍），通过A100上的Vicuna-33B V1.3将延迟时间从43秒减少到16秒（快了2.69倍）。

文章插图
这个想法，来源于对人类自身如何回答问题的思考。
对于我们来讲，并不总是按顺序思考问题，并写出答案。相反，对于许多类型的问题，首先根据一些策略推导出骨架，然后添加细节来细化和说明每一点。
那么，这一点在提供咨询、参加考试、撰写论文等正式场合中，更是如此。
我们能够让LLM以同样的方式思考吗？
为此，研究人员提出了「思维骨架」（SoT）。具体来说，引导LLM首先自己推导出一个骨架。

文章插图
在骨架的基础上，LLM可以并行地完成每个点，从而提高速度。SoT既可用于加速分批解码的开源模型，也可用于加速并行API调用的闭源模型。
最后，研究人员在最近发布的11个LLM上测试SoT 。
结果显示，SoT不仅提供了相当大的加速度（最高可达2.39倍），而且它还可以在多样性和相关性方面提高几个问题类别的答案质量。