文章插图
通义千问识别出了这里是上海外滩,还能介绍一下黄浦江的景色,以及上海海关大楼等特定建筑物 。
剧中提到的炒饭内含多少卡路里?
文章插图
看起来大模型可以理解并联系一些知识 。
除了基础的描述和识别能力外 , Qwen-VL 模型还具备视觉定位能力和针对画面指定区域进行问答的能力 。比如 , 根据指示进行目标检测 。
文章插图
如果你在截图上圈住一部分,它可以对其中的内容进行解释:
文章插图
新升级的 Qwen-VL 模型最显著的进步之一是基于视觉完成复杂推理的能力,比如理解流程图这种复杂的表示形式:
文章插图
与此同时,升级后的 Qwen-VL 处理图像中文本的能力也有了显著提高,不管是识别中文还是英文文本 。Qwen-VL-Plus/Max 可以有效地从表格和文档中提取信息 , 并将这些信息重新格式化,以满足自定义输出要求 。
文章插图
文章插图
四个多月就有如此进步,这就让人们开始感叹,阿里通义千问大模型更新够快,能力够强 。
阿里多模态大模型,正在爆炸式发展
能够达到如今的水准 , Qwen-VL 的技术实力不是一朝一夕炼成的 。
在多模态大模型方向上,阿里很早就开始布局 。从 2021 年 M6 系列的预训练 - 微调模式,到 2022 年 OFA (One-For-All) 系列的统一模态表示和任务的模式,再到 OFASys 的系统化 AI 学习的尝试,通义千问团队的目标是做出和人一样能听、能看、能理解 & 沟通的通用 AI 模型(系统) 。
2022 年,阿里开源了 OFA 。OFA 能通过自然语言来描述一个图文多模态任务,比如输入「描述一下这张图片」,模型就会尝试去产生一个合适的图像描述,打破了大家对通用多模态任务模型效果不如专用多模态模型的传统观念 。这篇被 ICML 2022 接收的论文思路启发了后续的许多研究,被谷歌、微软、Meta 等众多国际大厂所引用,是近年来多模态方向的高引论文之一 。
2023 年以来,通义千问团队延续了 OFA 的研究路线,利用通义千问语言模型的能力 , 弥补了过去多模态模型在新任务泛化能力上的缺陷,相关成果就是 2023 年下半年我们看到的开源图文多模态模型 Qwen-VL 和音频多模态模型 Qwen-Audio 。
文章插图
与此同时,阿里云通义实验室的一系列视觉生成类成果,也彻底火出了圈,社交网络上时不时可以看到利用通义 AI 技术生成的动图 。
比如只需一张图片即可生成跳舞视频的 Animate Anyone , 在国内外都引发了大量关注:
文章插图
再比如实现真人百变换装的 Outfit Anyone 。这项技术不仅能够精确地处理服装的变形效果 , 并且能调整以适应不同的姿势和体形,实现更加逼真的试穿体验 。无论是动画形象还是真人 , 都可以一键换装,让「QQ 秀」真正升级成了真人版 。
文章插图
此外,通义实验室的文生视频模型 I2VGen-XL 也是实实在在地火了一把,生成的视频兼顾高清、高分辨率、平滑、美观,毫不逊于 Gen2、Pika 效果 。
文章插图
文章插图
I2VGen-XL 生成视频结果 。
众所周知,通用人工智能的求索之路相当漫长 , 而大模型的技术突破,已经为我们指出了一个光明的方向 。过去一年多 , 人们见证了一场激烈的 AI 技术角逐,赛道上不乏来自中国的选手 。
以往,大模型领域的厂商大多以 OpenAI 为标杆,需要承认的是,OpenAI 的最新一代对话大模型 GPT-4 仍然在语言领域保持着领先优势 。
但在接下来的 2024 年,在下一个最具爆发潜力的技术方向 —— 多模态大模型上,中国的技术与产品或可与 OpenAI、谷歌这样的选手掰一掰手腕 。像 Qwen-VL 这样的国产大模型 , 能否实现从追平到进一步超越?会不会再诞生一批爆款应用?这些都是接下来一年值得期待的事情 。
推荐阅读
- 简易百科:什么是多模态大模型?
- 从“武打明星”变“票房诈骗犯”,吴樾还要骗多久?
- 2008北京奥运会中国拿了多少金牌美国拿了多少金牌 2008北京奥运会中国拿了多少金牌
- 被誉为“央视亲闺女”,演40多次女主不红,性格使然还是导演不捧
- 1981年属什么生肖 1981年属什么生肖 今年多大了
- 因价低被冷落的洗发水,李佳琦黄圣依多次力荐,高露:平价阿玛尼
- 水暖毯多少度睡觉最舒服 水暖毯多少度睡觉最舒服冬天用
- 中国护照免签国家有多少个地方 中国护照免签国家有多少个
- 女高官出轨多位健身教练,聊天记录被曝光!内容露骨毁三观
- 女儿被确诊多动症!四年四婚怀二胎的韩安冉:我要封肚了