训练成本不到1000元,直降90%!NUS、清华发布VPGTrans:轻松定制类GPT-4多模态大模型( 二 )


1.3 贡献
(1)提出高效的方法:
我们首先通过一系列的探究实验,探究了影响VPG迁移效率的关键因素 。根据探索实验发现,我们提出了一个两阶段的高效迁移框架 VPGTrans 。该框架可以大幅度缩减训练VL-LLM所需的计算开销和需要的训练数据 。
比如,相比于从头训练,我们通过BLIP-2 OPT-2.7B到6.7B的VPG迁移,可以 仅用大约10%的数据和计算时间就达成各个数据集 相似或更好的效果(图1) 。 训练花销从17901人民币到1673元 。
(2)得到有趣的发现:
我们同时提供了TaS和TaT场景下一些有趣的发现,并尝试给出解释:
a) TaS场景下,使用VPGTrans从小到大迁移不会影响最终模型效果 。
b) TaS场景下, 越小的语言模型上训练的VPG,迁移到大模型时效率越高,最终效果越好 。
c) TaT场景下,越小的模型之间迁移的gap越大 。在我们验证实验中,OPT350M和FlanT5-base使用VPGTrans互相迁移几乎和从头训练一样慢 。
(3)开源:
我们使用VPGTrans得到了两个新的VL-LLMs: VL-LLaMA和 VL-Vicuna,并开源在了社区上 。其中VL-Vicuna实现了类GPT4的高质量的多模态对话 。
二、高效率的VPG迁移方案:VPGTrans
首先我们进行一系列的探索验证实验,分析如何最大化对于VPG的迁移效率 。接着我们基于这些重要观察提出一个解决方案 。
2.1 探究实验
我们选取BLIP-2架构作为我们的基础模型,预训练语料采用COCO和SBU,总共1.4M图文对 。
下游任务采用COCO Caption, NoCaps, VQAv2, GQA和OK-VQA的zero-shot设定进行评测(对caption任务并非严格zero-shot) 。下面是我们的关键发现:
(1)直接继承一个训练好的VPG可以加速收敛,但效果有限:
我们发现,直接迁移一个LLM上训练好的VPG到大LLM可以加速模型收敛,但加速效果有限,且收敛后模型效果 相比于从头训练VPG会掉点(图5的VQAv2、GQA蓝线最高点均低于橘线) 。
我们猜测,这个掉点是由于随机初始化的projector会在训练起始阶段损伤VPG中已有的视觉感知能力 。
图5:VPG inherit (蓝线): 直接继承训练好的VPG 。train from scratch (橘线):从头训练VPG 。only linear (绿线):只训练linear projector不训练VPG 。
(2)先warm-up训练projector可以防止掉点,且进一步加速收敛:
于是,我们固定住VPG和LLM,先warm-up训练projector 3个epoch,再解冻VPG进行下一步训练 。
我们发现,这样不仅仅可以避免掉点情况,还能够进一步加速VPG收敛(图6) 。
但值得强调的是,由于训练的主要开销在LLM(参数巨多),仅仅训练projector的开销不会比同时训练VPG和projector的开销小太多 。
所以,我们开始探究加速projector warm-up的关键技术 。

训练成本不到1000元,直降90%!NUS、清华发布VPGTrans:轻松定制类GPT-4多模态大模型

文章插图
图6:先warm-up训练projector可以防止掉点+加速收敛
(3)词向量转化器初始化可以加速projector warm-up:
首先,VPG是通过把图像转化为LLM可以理解的soft prompt来产生效果的 。而soft prompt的使用方式和词向量其实是非常相似的,都是直接输入语言模型来提示模型产生对应内容 。
所以,我们使用词向量来作为soft prompt的一个代理,训练了一个
训练成本不到1000元,直降90%!NUS、清华发布VPGTrans:轻松定制类GPT-4多模态大模型

文章插图

训练成本不到1000元,直降90%!NUS、清华发布VPGTrans:轻松定制类GPT-4多模态大模型

文章插图
的词向量转化器(一个线性层) 。
然后,我们将词向量转化器和
训练成本不到1000元,直降90%!NUS、清华发布VPGTrans:轻松定制类GPT-4多模态大模型

文章插图
上的projector融合作为projector的初始化 。
通过这个初始化,我们可以将projector的warm-up训练由 3个epoch减为2个epoch 。
(4)projector可以在超大学习率下快速收敛:
我们进一步实验发现,projector由于其参数量较少,可以使用5倍的正常学习率进行训练而不崩溃 。
通过5倍学习率的训练,projector warm-up可以 进一步被缩短到1个epoch 。
(5)一个附加发现:
虽然projector warm-up很重要,但仅训练projector是不够的 。尤其在caption任务上面,仅仅训练projector的效果要比同时训练VPG的效果差一截(图5绿线在COCO Caption和NoCaps均远低于蓝线) 。
这也就意味着, 仅仅训练projector会导致欠拟合,也就是 无法充分对齐到训练数据 。
2.2 我们所提出的方法
训练成本不到1000元,直降90%!NUS、清华发布VPGTrans:轻松定制类GPT-4多模态大模型

文章插图
图7:VPGTrans框架: (1) 一阶段:projector的warm-up (2) 二阶段: 整体微调


推荐阅读