文章插图
新智元报道
编辑:LRS 好困
【新智元导读】最近的多模态(对话)大模型将基于文本的ChatGPT的强大能力扩展到了多模态输入,实现强大的多模态语义理解,比如GPT-4、BLIP-2、Flamingo等 。但咱们普通玩家训练一个多模态GPT代价非常昂贵 。来自于新加坡国立大学和清华大学的研究工作提出一个VPGTrans框架,帮助小伙伴们实现极低成本训练一个高性能多模态大模型 。
今年是AI技术爆发式发展的一年,以ChatGPT为代表的大语言模型(LLM)大火 。
语言模型除了在自然语言领域显示出巨大的潜力之外,也开始逐渐辐射到其他模态,比如文生图模型Stable Diffusion的背后也需要语言模型 。
从头开始训练一个视觉-语言模型(VL-LLM)往往需要消耗大量的资源,所以现有的解决方案都是把语言模型和视觉提示生成模型(Visual Prompt Generator, VPG)连接起来,但即便如此,继续调整VPG仍然需要几千个GPU小时和数百万的训练数据 。
最近,来自新加坡国立大学和清华大学的研究人员提出了一个解决方案VPGTrans,将现有的VPG迁移到现有的VL-LLM模型中,就能以低成本的方式获得目标VL-LLM模型 。
文章插图
论文链接:https://arxiv.org/abs/2305.01278
代码链接:https://Github.com/VPGTrans/VPGTrans
多模态对话模型Demo:https://vpgtrans.github.io/
作者:张傲,费豪,姚远,吉炜,黎力,刘知远,Chua Tat-Seng
单位:新加坡国立大学,清华大学
文章的主要创新点包括:
1. 极低训练成本:
通过我们提出的VPGTrans方法,可以 快速(少于10%训练时间)将已有的多模态对话模型的视觉模块迁移到新的语言模型,且达到类似或更优效果 。
比如,相比于从头训练视觉模块,我们可以将BLIP-2 FlanT5-XXL的训练开销 从19000+人民币缩减到不到1000元:
图1:基于我们的VPGTrans方法的BLIP-2训练开销缩减对比
2. 多模态大模型定制:
通过我们的VPGTrans框架可以根据需求为各种新的大语言模型灵活添加视觉模块 。比如我们在LLaMA-7B和Vicuna-7B基础上制作了VL-LLaMA和VL-Vicuna 。
3. 开源多模态对话模型:
我们开源了VL-Vicuna,类GPT-4多模态对话模型,可实现高质量的多模态对话:
文章插图
图2:VL-Vicuna的交互实例
一、动机介绍
1.1 背景
LLM在多模态理解领域掀起了一股从传统预训练视觉语言模型(VLM)到基于大语言模型的视觉语言模型(VL-LLM)的变革 。
通过为LLM接入视觉模块,VL-LLM可以继承已有LLM的知识,零样本泛化能力,推理能力和规划能力等 。相关模型有BLIP-2[1],Flamingo[2],PALM-E等 。
文章插图
图3:常用的VL-LLM架构
现有的常用的VL-LLM基本采取图3所示的架构:在一个基座LLM基础上训练一个视觉soft prompt生成模块(Visual Prompt Generator, VPG),以及一个进行维度变换的线性层(Projector) 。
在参数规模上, LLM一般占主要部分(比如11B),VPG占次要部分(比如1.2B),Projector最小(4M) 。
在训练过程中, LLM参数一般不会被更新,或者仅仅更新非常少量的参数 。可训练参数主要来自于VPG和projector 。
1.2 动机
实际上,即便基座LLM的参数冻结不训,但由于LLM的大参数量,训练一个VL-LLM的关键开销依然在于加载基座LLM 。
因此训练一个VL-LLM依然无法避免极大的计算代价 。比如,要得到BLIP-2(基座LLM为FlanT5-XXL)需要付出超过600个小时的A100训练时长 。如果租用亚马逊的A100-40G机器,大概需要将近2万元人民币的费用 。
既然从零训练一个VPG代价如此昂贵,那么我们开始思考 能否把一个已有的VPG迁移到新的LLM上来节省开销 。
文章插图
图4:VPG迁移: 跨LLM大小迁移和跨LLM类型迁移
如图4所示,我们主要探索了两种类型的VPG的迁移:
(1)跨LLM大小迁移(TaS):比如从OPT-2.7B到OPT-6.7B 。
(2)跨LLM类型迁移(TaT):比如从OPT到FlanT5 。
其中TaS的意义在于:在LLM相关科研中,我们通常需要在小LLM上调参,再扩展到大LLM 。有了TaS,我们可以在调参之后,把小LLM上已经训好的VPG直接迁移到大LLM上 。
TaT的意义在于:不同功能种类的LLM层出不穷,比如今天有了LLaMA,明天又有了Alpaca和Vicuna 。TaT可以让我们利用已有的VPG快速为新语言模型添加视觉感知能力 。
推荐阅读
- 赵丽颖|豪门太子丁子峻:赵丽颖背后的男人,出生不到6个月遭母亲抛弃
- 王自健|笑果事件愈演愈烈,现在才明白,王自健为何跟他们玩不到一块去了
- 对于长期坚持深蹲训练的人来说,到底有什么变化呢?
- |解决夏季肥水鱼难钓!四方面入手有效针对,走出有鱼钓不到的困境
- 徐娇|嫉妒范丞丞?任豪找不到人帮忙,陈晓和陈妍希之间的关系
- 郝劭文|李立群晒郝劭文婚礼视频,现场布置太诡异,女方被质疑身高不到150cm
- 郝劭文|郝劭文大婚看点足!重现儿时经典,现场送手机,遗憾吴孟达看不到
- 内蒙古|三甲医院招不到人,医学生说却求职无门,是什么让大学生舍弃编制
- 医学生|三甲医院招不到人,医学生却说求职无门,医学领域迎来发展尴尬期
- 纽约|纽约政府部门上千个职位空缺招不到人,市长街头发招聘传单