米粒创意 登顶权威榜单VCR,重磅!百度多模态模型ERNIE-ViL刷新5项任务纪录
机器之心报道
机器之心编辑部
近日 , 百度在多模态语义理解领域取得突破 , 提出知识增强视觉-语言预训练模型ERNIE-ViL , 首次将场景图(SceneGraph)知识融入多模态预训练 , 在5项多模态任务上刷新世界最好效果 , 并在多模态领域权威榜单VCR上超越微软、谷歌、Facebook等机构 , 登顶榜首 。 此次突破充分借助飞桨深度学习平台分布式训练领先优势 。 据机器之心了解 , 基于飞桨实现的ERNIE-ViL模型也将于近期开源 。
多模态语义理解是人工智能领域重要研究方向之一 , 如何让机器像人类一样具备理解和思考的能力 , 需要融合语言、语音、视觉等多模态的信息 。
近年来 , 视觉、语言、语音等单模态语义理解技术取得了重大进展 。 但更多的人工智能真实场景实质上同时涉及到多个模态的信息 。 例如 , 理想的人工智能助手需要根据语言、语音、动作等多模态的信息与人类进行交流 , 这就要求机器具备多模态语义理解能力 。
近日 , 百度在该领域取得突破 , 提出业界首个融合场景图知识的多模态预训练模型ERNIE-ViL 。 百度研究者将场景图知识融入到视觉-语言模型的预训练过程 , 学习场景语义的联合表示 , 显著增强了跨模态的语义理解能力 。 ERNIE-ViL还在包括视觉常识推理、视觉问答、引用表达式理解、跨模态图像检索、跨模态文本检索等5项典型多模态任务中刷新了世界最好效果 。 并在多模态领域权威榜单视觉常识推理任务(VCR)上登顶榜首 。
论文链接:https://arxiv.org/abs/2006.16934ERNIE开源地址:https://github.com/PaddlePaddle/ERNIEERNIE-ViL登顶VCR榜单
文章图片
VCRLeaderboard最新版 。 子任务一:Q->A(QuestionAnswering) 。 子任务二:QA→R(AnswerJustification) 。 综合得分:Q→AR:模型的综合表现(两个子任务都对才得分) 。
上小学的时候 , “看图说话”在语文试卷中常年占据着一席之地 。 比如给出下面这张图 , 让我们描述图里的人物在干什么、想什么、有着怎样的心情 。
文章图片
同样 , 在人工智能领域 , 机器也需要具备“看图说话”的能力 。
如下边这张图 , 出题人问:“右边的那个人是如何获得她面前的钱的?”进一步还要回答“你为什么做出这样的推断?”也就是说 , 模型不仅需要识别出图像中的物体“人”、“乐器”、“硬币” , 还需要对它们的关系“人演奏乐器”等进行理解 , 并通过“街头表演挣钱”这样的常识进行推理 。
文章图片
VCR(VisualCommonsenseReasoning , 视觉常识推理)就是由十几万这样的图片和问题组成的数据集 。 该数据集由华盛顿大学和艾伦人工智能研究所的研究者联合创建 , 考查的是模型的多模态语义理解与推理能力 。
微软、谷歌、Facebook等科技公司及UCLA、佐治亚理工学院等顶尖高校都对该任务发起了挑战 。
6月24号 , 该榜单被再次刷新 , 来自百度ERNIE团队的ERNIE-ViL在单模型效果和多模型效果上都取得了第一的成绩 , 并在联合任务上以准确率领先榜单第二名3.7个百分点的成绩登顶 , 超越了微软、谷歌、Facebook等机构 。
融合场景图知识的ERNIE-ViL
文章图片
当人们看到上面这张图的时候 , 首先会关注图中的物体(Objects)以及特点属性(Attributes)和期间的关系(Relationships) 。 如:“车”、“人”、“猫”、“房屋”等物体构成了图片场景中的基本元素;而物体的属性 , 如:“猫是白的” , “汽车是棕色的”则对物体做了更精细的刻画;物体间的位置和语义关系 , 如:“猫在车上” , “车在房屋前”等 , 建立了场景中的物体的关联 。 因此 , 物体、属性和关系共同构成了描述视觉场景的细粒度语义(DetailedSemantics) 。
推荐阅读
- 让“日常行为”成为后浪们的“创意主张”-东华大学服装与艺术设计学院优秀毕业作品云发布
- 餐饮先驱TB|紫萱创意中国菜30款赏析
- 几品飞车|中国‘芯’再做突破,高能离子注入机研制成功,难度堪比珠峰登顶
- 金牌舆情官|秦昊整容前旧照曝光,单眼皮宽下颌有黑又土,难怪小米粒单眼皮
- 詹姆斯|本季全能球员TOP10!76人双雄登场,詹皇第三小卡强势登顶
- 就爱创意|日本插画师 色彩绚烂又复古的风格,那些让人惊叹的创意插画师.第五百七十二期-竹子
- 篮途之路|詹皇无缘前二,小卡强势登顶,本季全能球员TOP10!76人双雄登场
- 阁屋财经|标致任命宏盟作为其全球创意代理商
- 跳跳糖|伊能静为4岁女儿庆生,米粒“正面”终于曝光,网友:这颜值绝了
- 生活里的创意|张含韵15岁成名,被人诋毁后人气低下,今在《浪姐》大放异彩!