挑战新物体描述问题,视觉词表解决方案超越人类表现( 二 )
通过这样的方法 , 研究员们结合了预训练中识别图片物体的能力 , 以及微调中用自然语言造句的能力 , 从而做到了在推理测试时举一反三 , 使用更丰富的词汇量来描述图片中新出现的各种物体 。
VIVO 训练流程
文章插图
【挑战新物体描述问题,视觉词表解决方案超越人类表现】图2:训练和推理流程总览
(a)在VIVO 预训练中 , Transformer 模型在图片标签的训练数据上做标签预测 , 从而针对丰富的视觉概念进行多模态特征学习 。 (b)在微调中 , 模型在有文本描述标注的训练数据上学习如何基于图片和识别出来的物体生成一句话 。 (c)在推理时 , 对于给定的图片和识别的物体 , 模型以自回归的方式生成一系列字符 , 从而构成描述新物体的句子 。
如图2所示 , VIVO 训练流程采用了两阶段的训练 。 第一阶段为预训练 , 使用多层的 Transformer 模型进行图像分类的预测 。 具体来说 , 先给定图片和对应的一些标签(tag) , 然后随机地抹去其中一部分标签 , 让模型来预测这些被抹去的标签原本是什么 。 由于这些标签之间的顺序是可以互换的 , 因此需要使用匈牙利算法(Hungarian matching)来找到预测结果和目标标签之间的一一对应 , 然后计算交叉熵损失(cross entropy loss)函数 。
预训练之后 , 第二阶段为微调 。 Transformer 模型会在有文本描述标注的小数据集上训练 , 例如 COCO 。 微调时使用的物体标签可以来自数据集本身的标注 , 也可以由其他已经训练好的图像分类或物体识别模型自动生成 。
在测试阶段 , 对于给定图片和识别出来的物体标签 , 模型采用了自回归(auto-regressive)的方式生成字符序列 , 从而获得描述图片的一句话 。
SOTA 首次超越人类研究员们将 VIVO 与 nocaps 挑战中一些领先的方法 , 如 UpDown 、 OSCAR 等做了对比(这些方法使用的训练数据也是 COCO) 。 另外 , 遵循之前的方法 , 添加了使用 SCST 和 Constrained Beam Search (CBS)之后的结果 。 在 nocaps 的校验集(validation)和测试集(test)上的结果显示在表1中 。 可以看到 , 相比于之前的方法 , VIVO 的结果表现有了显著的提高 。 仅仅使用 VIVO 预训练就取得了远超过 UpDown+ELMo+CBS 和 OSCAR 的结果 。 最终 , VIVO 方法的结果达到了新的 SOTA , 并且首次在 nocaps 挑战中超过了人类表现的 CIDEr 得分 。
文章插图
表1:各种方法在 nocaps 的校验和测试数据集上的结果
为了进一步理解 VIVO 预训练中学习视觉词表所产生的作用 , 即在图像和文字的共同特征空间中对准图像与相应的语义标签 , 研究员们展示了如何根据这些新物体的标签找到它们在图片中的位置(grounding to image regions) 。 对于每个图片区域和每个物体标签的两两配对 , VIVO 都计算了它们对应特征向量之间的相似度(cosine similarity) 。 图3高亮了其中得分高的配对 。 可以看出 , VIVO 的模型能够准确地在众多区域中确定这些物体所在的位置 。
文章插图
图3:模型对 nocaps 图片的描述结果
B:没有做 VIVO 预训练的模型 。 V:有 VIVO 预训练的模型 。 红色文字显示了描述中出现的新物体 。 图中还显示了各个图片区域和描述中出现的新物体对应特征向量之间的相似度 , 相似度越高的组合颜色亮度越高 。
VIVO 展示了视觉词表对描述图片中新出现的物体的重要作用 。 作为第一个不依赖于图片文本标注(paired image-sentence data)的图像与文本交互的预训练(Vision-Language Pre-training)方法 , VIVO 成功运用了计算机视觉研究中已经标注的大规模图片标签数据(image tagging data)来进行全新模式的图像与文本交互预训练 。 值得注意的是 , 如果可以利用模型自动给图片生成标签 , 而不需要人工标注文本描述 , 那么可以在训练时加入可能无限多的无标注图片 , 从而进一步提高模型的表现 , 微软的研究人员也将在未来的后续工作中对此进行更多探索 。
推荐阅读
- 腾讯游戏发起对华为的挑战,或因后者对国内手机市场的影响力大跌
- 新型纯蓝OLED可克服目前显示屏蓝光性能不足的挑战
- “机器人妻子”上市遭抢购,是在解决刚需,还是在挑战伦理?
- 苹果服务收入大增 反垄断将成为最大挑战
- Galaxy Note 20挑战者:Moto G Stylus 2021的渲染图出现
- 日本正式官宣!中国院士多次发声,中国的5G、6G面临双重挑战
- 中国这项技术领先世界,首次发起挑战,英国人:美国可不敢这样玩
- 库克还笑得出来吗?纬创工厂事件后苹果又迎新挑战,网友拍手叫好
- 约束"硅谷帝国"——监管科技巨头的困境与挑战
- 再见了,扫码支付?新型支付方式试水成功,微信、支付宝迎来挑战