唯一机械|实验结果超SOTA,真·无监督!延世大学提出图像到图像无监督模型( 二 )


文章图片
其中
唯一机械|实验结果超SOTA,真·无监督!延世大学提出图像到图像无监督模型
文章图片
为:
唯一机械|实验结果超SOTA,真·无监督!延世大学提出图像到图像无监督模型
文章图片
虽然L_MI提供了一种自动生成输入图像的域标签方法 , 但是当图像的分辨率高于64x64或样本变得复杂多样时它无法放大 。 因此我们作者向引导网络中添加辅助支路Estyle并施加对比损耗来克服这一点 , 公式如下:
唯一机械|实验结果超SOTA,真·无监督!延世大学提出图像到图像无监督模型
文章图片
第二部分是域引导下的图像到图像的翻译 。 这部分是为了解决翻译模式应该提供包含目标域视觉特征的逼真图像 。 为此作者采用了三种损失:1)对抗性损失以生成逼真的图像;2)风格对比损失以鼓励模型不忽略风格代码;3)图像重建损失以保持域不变特征 。
其中 , 对于对抗性损失训练 , 作者采用多任务鉴别器 , 其设计目的是同时对每个领域进行歧视(discrimination) 。 然后仅利用估计输入图像的域的损失来计算其梯度 。
另外 , 为了防止出现生成器忽略给定的风格代码而合成域的随机图像的退化情况 , 对生成器施加的风格对比损失函数如下:
唯一机械|实验结果超SOTA,真·无监督!延世大学提出图像到图像无监督模型
文章图片
为了保证生成器在给定其原始风格时可以重建源图像 , 其施加图像重建损失为:
唯一机械|实验结果超SOTA,真·无监督!延世大学提出图像到图像无监督模型
文章图片
上述公式不仅能保证生成器可以保留其输入图像的域不变性特征(例如 , 姿态) , 而且还有助于通过提取源图像的原始风格来学习引导网络的风格表示 。
最后 , 总的训练模型公式表示如下:
唯一机械|实验结果超SOTA,真·无监督!延世大学提出图像到图像无监督模型
文章图片
图注:λ是超参数 。
3
实验结果
在实验部分 , 一共进行了三个 , 分别是分析目标函数和训练策略的效果、在三个未标记的数据集上进行无监督的图像到图像的翻译、在半监督监督环境下与最先进的(SOTA)技术的比较 。
在训练策略效果实验中 , 作者选择了AnimalFaces10数据集 , 并验证了引入引导网络中的对抗损失能够提高模型的整体翻译性能 。 通过对训练策略的研究 , 证实了引导网络与GAN之间的互动确实提高了翻译效果 。
作者为了研究所提出的方法能够处理无监督的图像到图像的翻译 , 在AFHQ、FFHQ和LSUNCAR数据集上对模型进行了评估 。 整体结果如下图:
唯一机械|实验结果超SOTA,真·无监督!延世大学提出图像到图像无监督模型
文章图片
上图是在AFHQ野生类上训练的引导网络的t-SNE结果和来自每个域的示例图像 。
唯一机械|实验结果超SOTA,真·无监督!延世大学提出图像到图像无监督模型
文章图片
上图是定性的图像翻译结果 , 每幅图像由源图像和每个域中所有测试图像的平均风格码码合成 。 可以清晰的看出 , 每个输出都成功地反映了每个领域的视觉特征(即毛皮图案和颜色)以及其物种的视觉特征 。
唯一机械|实验结果超SOTA,真·无监督!延世大学提出图像到图像无监督模型
文章图片
FHQ和LSUNCAR的结果如图8所示 。 虽然还不清楚如何在FFHQ中定义“域” , 但该网络成功地将图像分成了视觉上不同的类别 , 如眼镜、发色和刘海 。
作者的第三个实验是与半监督学习环境下在两种方案下训练的最先进的翻译模型进行比较 。 如下图 , 展示了与使用朴素方案训练的基线之间的定性比较 。
唯一机械|实验结果超SOTA,真·无监督!延世大学提出图像到图像无监督模型


推荐阅读