训练成本不到1000元，直降90%！NUS、清华发布VPGTrans：轻松定制类GPT-4多模态大模型( 二 ) _VPGTrans

1.3 贡献
（1）提出高效的方法：
我们首先通过一系列的探究实验，探究了影响VPG迁移效率的关键因素。根据探索实验发现，我们提出了一个两阶段的高效迁移框架 VPGTrans 。该框架可以大幅度缩减训练VL-LLM所需的计算开销和需要的训练数据。
比如，相比于从头训练，我们通过BLIP-2 OPT-2.7B到6.7B的VPG迁移，可以仅用大约10%的数据和计算时间就达成各个数据集相似或更好的效果（图1）。训练花销从17901人民币到1673元。
（2）得到有趣的发现：
我们同时提供了TaS和TaT场景下一些有趣的发现，并尝试给出解释:
a) TaS场景下，使用VPGTrans从小到大迁移不会影响最终模型效果。
b) TaS场景下，越小的语言模型上训练的VPG，迁移到大模型时效率越高，最终效果越好。
c) TaT场景下，越小的模型之间迁移的gap越大。在我们验证实验中，OPT350M和FlanT5-base使用VPGTrans互相迁移几乎和从头训练一样慢。
（3）开源：
我们使用VPGTrans得到了两个新的VL-LLMs： VL-LLaMA和 VL-Vicuna，并开源在了社区上。其中VL-Vicuna实现了类GPT4的高质量的多模态对话。
二、高效率的VPG迁移方案：VPGTrans
首先我们进行一系列的探索验证实验，分析如何最大化对于VPG的迁移效率。接着我们基于这些重要观察提出一个解决方案。
2.1 探究实验
我们选取BLIP-2架构作为我们的基础模型，预训练语料采用COCO和SBU，总共1.4M图文对。
下游任务采用COCO Caption, NoCaps, VQAv2, GQA和OK-VQA的zero-shot设定进行评测(对caption任务并非严格zero-shot) 。下面是我们的关键发现:
（1）直接继承一个训练好的VPG可以加速收敛，但效果有限：
我们发现，直接迁移一个LLM上训练好的VPG到大LLM可以加速模型收敛，但加速效果有限，且收敛后模型效果相比于从头训练VPG会掉点（图5的VQAv2、GQA蓝线最高点均低于橘线）。
我们猜测，这个掉点是由于随机初始化的projector会在训练起始阶段损伤VPG中已有的视觉感知能力。
图5：VPG inherit (蓝线): 直接继承训练好的VPG 。train from scratch (橘线):从头训练VPG 。only linear (绿线):只训练linear projector不训练VPG 。
（2）先warm-up训练projector可以防止掉点，且进一步加速收敛：
于是，我们固定住VPG和LLM，先warm-up训练projector 3个epoch，再解冻VPG进行下一步训练。
我们发现，这样不仅仅可以避免掉点情况，还能够进一步加速VPG收敛（图6）。
但值得强调的是，由于训练的主要开销在LLM（参数巨多），仅仅训练projector的开销不会比同时训练VPG和projector的开销小太多。
所以，我们开始探究加速projector warm-up的关键技术。

文章插图
图6：先warm-up训练projector可以防止掉点+加速收敛
（3）词向量转化器初始化可以加速projector warm-up：
首先，VPG是通过把图像转化为LLM可以理解的soft prompt来产生效果的。而soft prompt的使用方式和词向量其实是非常相似的，都是直接输入语言模型来提示模型产生对应内容。
所以，我们使用词向量来作为soft prompt的一个代理，训练了一个

文章插图
到

文章插图
的词向量转化器（一个线性层）。
然后，我们将词向量转化器和

文章插图
上的projector融合作为projector的初始化。
通过这个初始化，我们可以将projector的warm-up训练由 3个epoch减为2个epoch 。
（4）projector可以在超大学习率下快速收敛：
我们进一步实验发现，projector由于其参数量较少，可以使用5倍的正常学习率进行训练而不崩溃。
通过5倍学习率的训练，projector warm-up可以进一步被缩短到１个epoch 。
（5）一个附加发现：
虽然projector warm-up很重要，但仅训练projector是不够的。尤其在caption任务上面，仅仅训练projector的效果要比同时训练VPG的效果差一截（图5绿线在COCO Caption和NoCaps均远低于蓝线）。
这也就意味着，仅仅训练projector会导致欠拟合，也就是无法充分对齐到训练数据。
2.2 我们所提出的方法