机器之心重磅!百度多模态模型ERNIE-ViL刷新5项纪录,登顶权威榜单VCR
机器之心报道
机器之心编辑部
近日 , 百度在多模态语义理解领域取得突破 , 提出知识增强视觉-语言预训练模型 ERNIE-ViL , 首次将场景图(Scene Graph)知识融入多模态预训练 , 在 5 项多模态任务上刷新世界最好效果 , 并在多模态领域权威榜单 VCR 上超越微软、谷歌、Facebook 等机构 , 登顶榜首 。 此次突破充分借助飞桨深度学习平台分布式训练领先优势 。 据机器之心了解 , 基于飞桨实现的 ERNIE-ViL 模型也将于近期开源 。
【机器之心重磅!百度多模态模型ERNIE-ViL刷新5项纪录,登顶权威榜单VCR】多模态语义理解是人工智能领域重要研究方向之一 , 如何让机器像人类一样具备理解和思考的能力 , 需要融合语言、语音、视觉等多模态的信息 。
近年来 , 视觉、语言、语音等单模态语义理解技术取得了重大进展 。 但更多的人工智能真实场景实质上同时涉及到多个模态的信息 。 例如 , 理想的人工智能助手需要根据语言、语音、动作等多模态的信息与人类进行交流 , 这就要求机器具备多模态语义理解能力 。
近日 , 百度在该领域取得突破 , 提出业界首个融合场景图知识的多模态预训练模型 ERNIE-ViL 。 百度研究者将场景图知识融入到视觉-语言模型的预训练过程 , 学习场景语义的联合表示 , 显著增强了跨模态的语义理解能力 。 ERNIE-ViL 还在包括视觉常识推理、视觉问答、引用表达式理解、跨模态图像检索、跨模态文本检索等 5 项典型多模态任务中刷新了世界最好效果 。 并在多模态领域权威榜单视觉常识推理任务(VCR)上登顶榜首 。
论文链接:https://arxiv.org/abs/2006.16934
ERNIE 开源地址:https://github.com/PaddlePaddle/ERNIE
ERNIE-ViL 登顶 VCR 榜单
本文插图
VCR Leaderboard 最新版 。 子任务一:Q->A(Question Answering) 。 子任务二:QAR(Answer Justification) 。 综合得分:QAR:模型的综合表现(两个子任务都对才得分) 。
上小学的时候 , “看图说话”在语文试卷中常年占据着一席之地 。 比如给出下面这张图 , 让我们描述图里的人物在干什么、想什么、有着怎样的心情 。
本文插图
同样 , 在人工智能领域 , 机器也需要具备“看图说话” 的能力 。
如下边这张图 , 出题人问:“右边的那个人是如何获得她面前的钱的?”进一步还要回答 “你为什么做出这样的推断?” 也就是说 , 模型不仅需要识别出图像中的物体 “人”、“乐器”、“硬币” , 还需要对它们的关系 “人演奏乐器” 等进行理解 , 并通过 “街头表演挣钱” 这样的常识进行推理 。
本文插图
VCR(Visual Commonsense Reasoning , 视觉常识推理)就是由十几万这样的图片和问题组成的数据集 。 该数据集由华盛顿大学和艾伦人工智能研究所的研究者联合创建 , 考查的是模型的多模态语义理解与推理能力 。
微软、谷歌、Facebook 等科技公司及 UCLA、佐治亚理工学院等顶尖高校都对该任务发起了挑战 。
6 月 24 号 , 该榜单被再次刷新 , 来自百度 ERNIE 团队的 ERNIE-ViL 在单模型效果和多模型效果上都取得了第一的成绩 , 并在联合任务上以准确率领先榜单第二名 3.7 个百分点的成绩登顶 , 超越了微软、谷歌、Facebook 等机构 。
融合场景图知识的 ERNIE-ViL
本文插图
推荐阅读
- Tony老师也在聊股市了!一则传闻引爆A股,两位“绯闻主角”刚刚重磅回应
- 优视汽车|下半年买车可别错过,5款即将上市的重磅新车
- 扫地机器人哪个牌子好?高效清洁首选德国大牌
- 马夏尔▲重磅! 足坛史上最贵转会呼之欲出: 总价高达1.7亿欧, 有望创世界纪录
- 机器人|达闼科技赴美上市一路坎坷 列入“实体名单”后会回归A股吗
- #西甲#重磅! 梅西离开巴萨迎来大反转: 曼城曼联尤文彻底没戏, 西甲大赢家
- 宫爆体育|CBA重磅签约正式完成!天才后卫投奔马布里 未来让人期待
- 富途资讯|| 重磅数据及事件一览表,一周前瞻
- 光一样的少年|电商大促爆仓 智子跃迁分拣机器人直击行业痛点
- 「长安汽车」电动车越来越多了 - 2020下半年三款重磅新能源车型盘点