澄澈的眼|GAN/VAE地位难保？Flow在零样本识别任务上大显身手( 三 ) 作者|秦杰、沈钰明编辑|陈大鑫计算机视

2、Generative Flow背景Flow与VAE不同的是， VAE仅会给出样本概率的下界，而Flow则会直接计算单个样本的概率质量：
其中z是由关于x的一组双射性（Bijective）变换
得到的。
一般会选用比较好参数化的先验分布（例如0均值的高斯分布）。其核心理论是基于概率模型中的变量替换（The Change of Variables Formula）。 Generative Flow的生成过程依赖于变换函数的逆变换：
这个模型先前并没有在CV领域引起很广泛的关注，主要原因在于以下两个难点：
1、寻找一个任意深度神经网络的逆变换并不方便；
2、雅可比行列式的计算并不方便。
这些问题在近几年已经被逐步改善，核心思路是构造特定的网络结构，在保证整体逆变换不需要改变计算图的前提下，形成三角阵样式的雅可比矩阵。
我们这里列出几个在这个方面具有代表性的工作：

NICE:
RealNVP:
Glow:

我们本次的工作很大程度上是站在以上巨人的肩膀上完成的，更详细的综述可以参考：
Normalizing Flows: An Introduction and Review of Current Methods:
3 我们的方法：IZF
Generative Flow并不是为零样本学习而存在的，因此并不能直接做到即插即用。为此，本文提出了三个贡献来让生成流方法更好地服务于ZSL问题：

我们通过将网络的输出分解为语义和非语义部分，从而将语义信息注入生成流方法中，这也是首次生成流方法被用于零样本识别任务。
我们提出了一个简单有效的方法，即度量和控制可见-不可见（Seen-Unseen）类别间的样本分布差异，从而解决零样本识别中普遍存在的偏移（Bias/Shift）问题。
我们在四个经典的零样本识别数据库（AwA1&2、CUB、SUN、aPY）上，在两种不同实验设置（Classic/Generalized Setting）下，均达到了国际领先的识别效果。

上图是我们方法（Invertible Zero-shot Flow, IZF）的示意图，可以看到，生成流方法本质上是一个可逆网络，网络两边的输入（也是输出）分别是特征空间和语义空间。值得注意的是，这和上文所提到的三种思路有所不同，我们通过学习特征和语义空间的一种双向映射关系来解决零样本识别问题。

IZF的具体网络结构如上图所示，网络的正向传播路径和逆向传播路径（注意这里并不是神经网络优化时使用的反向传播，即Back-Propagation）分别显示在示意图的上半部分和下半部分。
1、条件生成式Flow我们使用v来代表任意一张图片的视觉特征， y 作为其分类标注， c代表对应类别的语义特征。在最终目标为利用Unseen类别的语义特征进行条件生成的前提下，我们略微改写了Flow ，将其输出分为了语义相关部分（c）和语义不相关部分（z）：