1.3 贡献
(1)提出高效的方法:
我们首先通过一系列的探究实验,探究了影响VPG迁移效率的关键因素 。根据探索实验发现,我们提出了一个两阶段的高效迁移框架 VPGTrans 。该框架可以大幅度缩减训练VL-LLM所需的计算开销和需要的训练数据 。
比如,相比于从头训练,我们通过BLIP-2 OPT-2.7B到6.7B的VPG迁移,可以 仅用大约10%的数据和计算时间就达成各个数据集 相似或更好的效果(图1) 。 训练花销从17901人民币到1673元 。
(2)得到有趣的发现:
我们同时提供了TaS和TaT场景下一些有趣的发现,并尝试给出解释:
a) TaS场景下,使用VPGTrans从小到大迁移不会影响最终模型效果 。
b) TaS场景下, 越小的语言模型上训练的VPG,迁移到大模型时效率越高,最终效果越好 。
c) TaT场景下,越小的模型之间迁移的gap越大 。在我们验证实验中,OPT350M和FlanT5-base使用VPGTrans互相迁移几乎和从头训练一样慢 。
(3)开源:
我们使用VPGTrans得到了两个新的VL-LLMs: VL-LLaMA和 VL-Vicuna,并开源在了社区上 。其中VL-Vicuna实现了类GPT4的高质量的多模态对话 。
二、高效率的VPG迁移方案:VPGTrans
首先我们进行一系列的探索验证实验,分析如何最大化对于VPG的迁移效率 。接着我们基于这些重要观察提出一个解决方案 。
2.1 探究实验
我们选取BLIP-2架构作为我们的基础模型,预训练语料采用COCO和SBU,总共1.4M图文对 。
下游任务采用COCO Caption, NoCaps, VQAv2, GQA和OK-VQA的zero-shot设定进行评测(对caption任务并非严格zero-shot) 。下面是我们的关键发现:
(1)直接继承一个训练好的VPG可以加速收敛,但效果有限:
我们发现,直接迁移一个LLM上训练好的VPG到大LLM可以加速模型收敛,但加速效果有限,且收敛后模型效果 相比于从头训练VPG会掉点(图5的VQAv2、GQA蓝线最高点均低于橘线) 。
我们猜测,这个掉点是由于随机初始化的projector会在训练起始阶段损伤VPG中已有的视觉感知能力 。
图5:VPG inherit (蓝线): 直接继承训练好的VPG 。train from scratch (橘线):从头训练VPG 。only linear (绿线):只训练linear projector不训练VPG 。
(2)先warm-up训练projector可以防止掉点,且进一步加速收敛:
于是,我们固定住VPG和LLM,先warm-up训练projector 3个epoch,再解冻VPG进行下一步训练 。
我们发现,这样不仅仅可以避免掉点情况,还能够进一步加速VPG收敛(图6) 。
但值得强调的是,由于训练的主要开销在LLM(参数巨多),仅仅训练projector的开销不会比同时训练VPG和projector的开销小太多 。
所以,我们开始探究加速projector warm-up的关键技术 。
文章插图
图6:先warm-up训练projector可以防止掉点+加速收敛
(3)词向量转化器初始化可以加速projector warm-up:
首先,VPG是通过把图像转化为LLM可以理解的soft prompt来产生效果的 。而soft prompt的使用方式和词向量其实是非常相似的,都是直接输入语言模型来提示模型产生对应内容 。
所以,我们使用词向量来作为soft prompt的一个代理,训练了一个
文章插图
到
文章插图
的词向量转化器(一个线性层) 。
然后,我们将词向量转化器和
文章插图
上的projector融合作为projector的初始化 。
通过这个初始化,我们可以将projector的warm-up训练由 3个epoch减为2个epoch 。
(4)projector可以在超大学习率下快速收敛:
我们进一步实验发现,projector由于其参数量较少,可以使用5倍的正常学习率进行训练而不崩溃 。
通过5倍学习率的训练,projector warm-up可以 进一步被缩短到1个epoch 。
(5)一个附加发现:
虽然projector warm-up很重要,但仅训练projector是不够的 。尤其在caption任务上面,仅仅训练projector的效果要比同时训练VPG的效果差一截(图5绿线在COCO Caption和NoCaps均远低于蓝线) 。
这也就意味着, 仅仅训练projector会导致欠拟合,也就是 无法充分对齐到训练数据 。
2.2 我们所提出的方法
文章插图
图7:VPGTrans框架: (1) 一阶段:projector的warm-up (2) 二阶段: 整体微调
推荐阅读
- 赵丽颖|豪门太子丁子峻:赵丽颖背后的男人,出生不到6个月遭母亲抛弃
- 王自健|笑果事件愈演愈烈,现在才明白,王自健为何跟他们玩不到一块去了
- 对于长期坚持深蹲训练的人来说,到底有什么变化呢?
- |解决夏季肥水鱼难钓!四方面入手有效针对,走出有鱼钓不到的困境
- 徐娇|嫉妒范丞丞?任豪找不到人帮忙,陈晓和陈妍希之间的关系
- 郝劭文|李立群晒郝劭文婚礼视频,现场布置太诡异,女方被质疑身高不到150cm
- 郝劭文|郝劭文大婚看点足!重现儿时经典,现场送手机,遗憾吴孟达看不到
- 内蒙古|三甲医院招不到人,医学生说却求职无门,是什么让大学生舍弃编制
- 医学生|三甲医院招不到人,医学生却说求职无门,医学领域迎来发展尴尬期
- 纽约|纽约政府部门上千个职位空缺招不到人,市长街头发招聘传单