澄澈的眼|GAN/VAE地位难保?Flow在零样本识别任务上大显身手


澄澈的眼|GAN/VAE地位难保?Flow在零样本识别任务上大显身手作者 | 秦杰、沈钰明
编辑 | 陈大鑫
计算机视觉三大会议之一的ECCV 2020刚刚落下帷幕 , 本文主要介绍阿联酋起源人工智能研究院(IIAI)的科学家们在该会议上发表的一篇论文:《Invertible Zero-Shot Recognition Flows》 。
该工作首次提出了一种基于生成流(Generative Flow)模型的零样本学习方法 , 并在多个数据库上取得了目前最好的识别结果 。
澄澈的眼|GAN/VAE地位难保?Flow在零样本识别任务上大显身手论文链接:
1 零样本学习简介
众所周知 , 在当今计算机视觉领域 , 深度学习可谓“一统天下” , 在诸多视觉任务中都取得了目前最好的(检测、识别、分割等)结果 。 而数据可谓是深度学习算法的“Buff” , 算法的好坏往往取决于是否有充足且多样性的标注好的训练数据 。
举例而言 , 我们要识别下图中的三种动物 , 那么首先我们需要标注大量老虎、兔子和斑马的图片 , 然后基于这些有标签的图片训练深度学习模型 , 最后将未知类别的图片输入训练好的模型中 , 才能够准确识别出图片中包含的动物类别 。
然而 , 在实际应用场景中 , 我们往往会遇到以下“尴尬”情况:当我们在训练深度学习模型时 , 能“看见”的是标注好的大量老虎和兔子的图片 , 然而我们需要识别的图片中包含的却是斑马 。 可以预见的是 , 不管我们使用多么先进的模型架构 , 将斑马输入训练好的模型后 , 所得到的预测结果很有可能就是老虎(为啥?很简单 , 因为老虎和斑马长得更像不是嘛) 。
如下图所示 , 我们把斑马称作不可见类别(Unseen Class) , 而老虎和兔子就属于可见类别(Seen Class) , 而这个问题则被称为零样本识别(Zero-Shot Recognition)问题 , 用来解决这一类问题的方法则被称为零样本学习(Zero-Shot Learning , ZSL)方法 。
澄澈的眼|GAN/VAE地位难保?Flow在零样本识别任务上大显身手在现实生活中 , 类似情况是十分常见的 , 因为:
1、“斑马”可能是新型物种 , 我们使劲浑身解数也没法捕捉到它那“迷人”的一瞬间 。 2、有人见过“斑马” , 但还是没法拍到它的照片 , 因为它可能是人体内的某个器官(每拍一次就会受一次辐射 , 这谁受得了) 。 换而言之 , 世界瞬息万变 , 新物种、新概念、新类型层出不穷 , 我们无法或很难获取某些类别的标注数据 。
那么 , 我们怎么才能识别这令人摸不着头脑的“斑马”呢?
答案是——买装备!哦不对 , 是借助语义信息(Semantics) 。
啥叫语义信息?很简单 , 就是我们在描述某类事物特征时用到的一些形容词 , 比如斑马是“条纹状的”、“黑白相间的”、“毛茸茸的”、“脸长长的”等等 。 同样的 , 我们也可以对老虎和兔子进行描述 。
需要注意的是 , 这些描述类形容词在三种动物间是共享的 , 更一本正经的说:这些形容词共存于一个预先定义好的语义空间(Semantic Space)中 , 在这个空间中每种动物都有与之相对应的语义编码(Semantic Embedding) 。 这样一来 , 我们有了这些辅助信息 , 就可以自信地解决零样本问题了 。
澄澈的眼|GAN/VAE地位难保?Flow在零样本识别任务上大显身手具体来说 , 目前主流的零样本学习方法主要遵循以下三种思路:
1、学习视觉空间到语义空间的映射关系使用这种方式 , 我们就可以学习到老虎和兔子身上的各种属性信息 。 当我们从未谋面的斑马进入我们的视野 , 我们就可以用学习到的映射关系来描述它 。 比如 , 我们可以自信的说 , 我们见到了一种动物 , 它身上是条纹状的、黑白相间的、毛茸茸的等等 。 从此 , 我们只要见到斑马的图片 , 就可以自然地把它们归为我们不知道名字的那一类动物 。 或者 , 我们也可以帮它取个名字叫“XX” , 那我们就可以把斑马图片归类为“XX”类动物 。 至此 , 我们就可以识别出未知的动物类别了 。


推荐阅读