训练成本不到1000元，直降90%！NUS、清华发布VPGTrans：轻松定制类GPT-4多模态大模型 _VPGTrans

文章插图
新智元报道
编辑：LRS 好困
【新智元导读】最近的多模态（对话）大模型将基于文本的ChatGPT的强大能力扩展到了多模态输入，实现强大的多模态语义理解，比如GPT-4、BLIP-2、Flamingo等。但咱们普通玩家训练一个多模态GPT代价非常昂贵。来自于新加坡国立大学和清华大学的研究工作提出一个VPGTrans框架，帮助小伙伴们实现极低成本训练一个高性能多模态大模型。
今年是AI技术爆发式发展的一年，以ChatGPT为代表的大语言模型（LLM）大火。
语言模型除了在自然语言领域显示出巨大的潜力之外，也开始逐渐辐射到其他模态，比如文生图模型Stable Diffusion的背后也需要语言模型。
从头开始训练一个视觉-语言模型（VL-LLM）往往需要消耗大量的资源，所以现有的解决方案都是把语言模型和视觉提示生成模型（Visual Prompt Generator, VPG）连接起来，但即便如此，继续调整VPG仍然需要几千个GPU小时和数百万的训练数据。
最近，来自新加坡国立大学和清华大学的研究人员提出了一个解决方案VPGTrans，将现有的VPG迁移到现有的VL-LLM模型中，就能以低成本的方式获得目标VL-LLM模型。

文章插图
论文链接：https://arxiv.org/abs/2305.01278
代码链接：https://Github.com/VPGTrans/VPGTrans
多模态对话模型Demo：https://vpgtrans.github.io/
作者：张傲，费豪，姚远，吉炜，黎力，刘知远，Chua Tat-Seng
单位：新加坡国立大学，清华大学
文章的主要创新点包括：
1. 极低训练成本：
通过我们提出的VPGTrans方法，可以快速（少于10%训练时间）将已有的多模态对话模型的视觉模块迁移到新的语言模型，且达到类似或更优效果。
比如，相比于从头训练视觉模块，我们可以将BLIP-2 FlanT5-XXL的训练开销从19000+人民币缩减到不到1000元：
图1：基于我们的VPGTrans方法的BLIP-2训练开销缩减对比
2. 多模态大模型定制：
通过我们的VPGTrans框架可以根据需求为各种新的大语言模型灵活添加视觉模块。比如我们在LLaMA-7B和Vicuna-7B基础上制作了VL-LLaMA和VL-Vicuna 。
3. 开源多模态对话模型：
我们开源了VL-Vicuna，类GPT-4多模态对话模型，可实现高质量的多模态对话：

文章插图
图2：VL-Vicuna的交互实例
一、动机介绍
1.1 背景
LLM在多模态理解领域掀起了一股从传统预训练视觉语言模型（VLM）到基于大语言模型的视觉语言模型（VL-LLM）的变革。
通过为LLM接入视觉模块，VL-LLM可以继承已有LLM的知识，零样本泛化能力，推理能力和规划能力等。相关模型有BLIP-2[1]，Flamingo[2]，PALM-E等。

文章插图
图3：常用的VL-LLM架构
现有的常用的VL-LLM基本采取图3所示的架构：在一个基座LLM基础上训练一个视觉soft prompt生成模块（Visual Prompt Generator, VPG），以及一个进行维度变换的线性层（Projector）。
在参数规模上， LLM一般占主要部分（比如11B），VPG占次要部分（比如1.2B），Projector最小（4M）。
在训练过程中， LLM参数一般不会被更新，或者仅仅更新非常少量的参数。可训练参数主要来自于VPG和projector 。
1.2 动机
实际上，即便基座LLM的参数冻结不训，但由于LLM的大参数量，训练一个VL-LLM的关键开销依然在于加载基座LLM 。
因此训练一个VL-LLM依然无法避免极大的计算代价。比如，要得到BLIP-2（基座LLM为FlanT5-XXL）需要付出超过600个小时的A100训练时长。如果租用亚马逊的A100-40G机器，大概需要将近2万元人民币的费用。
既然从零训练一个VPG代价如此昂贵，那么我们开始思考能否把一个已有的VPG迁移到新的LLM上来节省开销。

文章插图
图4：VPG迁移: 跨LLM大小迁移和跨LLM类型迁移
如图4所示，我们主要探索了两种类型的VPG的迁移:
（1）跨LLM大小迁移（TaS）：比如从OPT-2.7B到OPT-6.7B 。
（2）跨LLM类型迁移（TaT）：比如从OPT到FlanT5 。
其中TaS的意义在于：在LLM相关科研中，我们通常需要在小LLM上调参，再扩展到大LLM 。有了TaS，我们可以在调参之后，把小LLM上已经训好的VPG直接迁移到大LLM上。
TaT的意义在于：不同功能种类的LLM层出不穷，比如今天有了LLaMA，明天又有了Alpaca和Vicuna 。TaT可以让我们利用已有的VPG快速为新语言模型添加视觉感知能力。