一致性ECCV2020|基于对抗一致性,非匹配图像转换效果真假难辨
本文插图
本文插图
论文地址:https://arxiv.org/abs/2003.04858
1
问题引入
在图像处理、图形学和计算机视觉中有大量问题是将一个图片域的图片转换到另一个图片域 , 比如前一阵刷屏朋友圈的换脸应用 。 这种问题可以统称为图像到图像转换(image-to-image translation)[1] 。 目前基于深度学习 , 特别是生成对抗网络(generative adversarial networks, GANs)[2] 的方法在图像到图像转换中取得了很大的进步 。
然而 , 目前的主流方法有若干局限性 , 导致不能支持很多应用 。 其中最大的一个局限性是目前的主流方法基于循环一致性损失(cycle consistency loss , 以下简称cycle loss)[2] 。 Cycle loss 缺陷的主要原因在于其要求转换回来的图片要和原图完全一致(图2右侧,) , 而这对于很多任务是不现实的 。 比如单纯看到图1的期望结果 , 让我们去画一个眼镜 , 显然有无数种情况 , 对于生成器也是如此 。 再比如性别转换时胡须、头发的变化等等 , 这类问题都具有不可逆的特性 。 当 cycle loss 尝试解决这类问题时 , 就必须“作弊”在图片中留下痕迹或减小变化 , 也就导致了结果的不真实(图1 CycleGAN) 。
本文插图
图1. 眼镜去除的例子
今天介绍一篇 ECCV 2020 上最新的工作 ACL-GAN , 提出从数据分布角度约束不可逆图像转换过程 , 主要解决了以下问题:
规避了 cycle loss 的缺点;
转换后图像与原图具有相关性;
对于同一张输入 , 可以输出合理高质量的多模态输出;
利用较少的网络参数 , 降低了训练和使用成本 。
该方法生成的图片令人难辨真假 , 而且在量化评价上 , 也超过现有方法 , 成为 state-of-the-art 。
2
方法简介
本文插图
图2. ACL loss(左)和cycle loss(右)的对比
ACL-GAN 为了规避生成器“作弊”留下眼镜痕迹 , 并不限制点到点的相同 , 而是将各种眼镜统统纳入怀中 。 为了允许不同细节的图片都被认为和原图相同 , 该方法将原图 、转换的图片 、还原图片 都扩充成分布(如图3中的眼镜款式具有多样性) , 利用判别器拉近原图邻域和还原图片分布的距离 。 本文利用一致性判别器促使生成器拉近上述分布 。 为了保证图片与原图具有相关性 , 该方法同时将原图输入给一致性判别器 , 作为其判断的依据 。 这样 , 生成器就可以大胆的把眼镜完全去掉 , 从而得到更高质量的转换结果 。
本文插图
图3. ACL-GAN的模型框架
同时 , 图像转换任务中有些信息是我们希望完全不变的(如背景) 。 该方法采用注意力机制(attention mechanism) , 令生成器同时生成注意力遮罩 , 区分前景和背景(0表示背景 , 1表示前景) 。 但现有的方法往往不限制遮罩的形态 , 本文作者提出 Bounded focus mask , 对注意力遮罩增加两种限制:1)每一个像素趋向于0/1 , 即明显划分前景和背景;2)前景的面积根据不同任务限制在特定范围 。 Bounded focus mask 可以帮助生成器集中精力在需要修改的区域 , 从而提高生成效果 。
本文插图
推荐阅读
- 军事的第一线|基于77GHz毫米波FMCW雷达的2D-SAR成像(Matlab算法与实测数据)
- 环球时报|中国驻法使馆:不接受基于谎言的所谓“国际独立调查”
- 新疆生活|中国驻法使馆:不接受基于谎言的所谓“国际独立调查”
- ECCV2020 Oral | BorderDet用边界特征做检测
- 前沿追踪|基于TorchText的PyTorch文本分类
- 网上车市|基于宋MAX打造,比宋MAX更长/续航更远,比亚迪新e6将于年内发布
- |苹果ARM桌面处理器细节信息曝光:基于5nm工艺,面积比A13大40%
- 测的全要素检测而不仅仅是表面检测,妙微科技,基于工业机器视觉的场景数据库
- 超能网苹果ARM桌面处理器细节信息曝光:基于5nm工艺,面积比A13大40%
- 及时行乐|基于Promise实现对Ajax的简单封装