新智元|两图生万物!这个超强图像转换神器,小样本一秒猫狗合体变新物种( 二 )
我们的框架由一个有条件的图像发生器G和一个多任务对抗性鉴别器D组成 。
与现有无监督image-to-image translation框架中有条件的图像生成器不同 , 它们是将一张图像作为输入 , 而我们的生成器G需要同时将一张内容图像x和一组K类图像作为输入 , 生成输出图像xˉ , 公式如下:
实验结果:姿态和种类一起转换 , 超越基准模型
主要结果
本文插图
如表1所示 , FUNIT框架在Animal Faces和North American Birds两个数据集的所有性能指标都优于用于小样本无监督图像到图像转换任务的基线模型 。
FUNIT在Animal Faces数据集的1-shot和5-shot设置上分别达到82.36和96.05 的Top-5 测试精度 , 以及在North American Birds数据集上分别达到60.19和75.75的Top-5 测试精度 。
这些指标都明显优于相应的基准模型 。
本文插图
表1:FUNIT与基线模型的性能比较 。 表示数值越大越好 , 表示越小越好 。
在图2中 , 我们对FUNIT-5计算的few-shot translation的结果进行了可视化 。
本文插图
本文插图
本文插图
本文插图
图2:无监督图像-图像转换结果的可视化 。 计算结果采用FUNIT-5模型 。
从上到下分别是来自动物面孔、鸟、花和食物数据集的结果 。 每个示例随机展示了2张目标类中的图像 , 输入内容图像x , 以及转换后的输出图像xˉ 。
结果表明 , 模型能够成功地将源类的图像转换为新的类中的相似图像 。 对象在输入内容图像x和相应输出图像xˉ中的姿态基本保持不变 。 输出图像也非常逼真 , 类似于目标类中的图像 。
图3提供FUNIT与基线模型的结果比较 。 可以看到 , FUNIT生成了高质量的图像转换输出 。
本文插图
图3:小样本图像到图像转换效果的比较 。
从左到右的列分别是输入内容图像x , 两个输入目标类图像y1 , y2 , 来自不公平的StarGAN基线的转换结果 , 来自公平的StarGAN基线的转换结果 , 以及来自FUNIT框架的结果 。
## 解决Content Loss问题
然而 , 上述论文中提出的框架在一个方面受到了限制 。 当模型应用于具有不同外观的对象时 , 如具有非常不同身体姿势的动物时 , 少数镜头翻译框架经常产生不满意的翻译输出 。
本文插图
如上图所示 , 本应保持不变的领域不变的内容在翻译后消失了 。 作者将这个问题称为内容丢失(Content Loss)问题 。
对此 , 本论文作者提出了一种新型的网络架构来解决内容丢失问题 。 通过设计一种称为content-conditioned style encoder的风格编码器 , 以阻止任务相关的外观信息传输到图像翻译过程中 。
本文插图
与现有的风格编码器不同 , 风格代码是通过对输入内容图像进行调节来计算的 。 作者使用了一种新的架构设计来限制风格代码的变化 。
推荐阅读
- 新智元|英国5G建设病急乱投医,这两家日本企业或成华为接盘侠
- 新智元|TikTok被爆与谷歌云签署8亿美元合同,白宫:卖给美国公司也不行
- 新智元|MIT发出“算力”警告:深度学习正在逼近计算极限
- 科技小数据|万物皆可充的OPPO 50W超闪饼干充电器如何做到闪电瘦身?
- 新智元|史无前例被黑,推特有内鬼!
- 5G手机,OPPO手机|划时代闪充技术诞生 “万物无线快充”还会远么?
- |QC、PD统统支持!OPPO打造万物皆可快充的时代
- 新智元|6G来了!三星发布6G白皮书,2028年商用!峰值速率是5G的50倍
- 人工智能|万物互联,联发科AIoT芯片推动AI边缘计算
- 电池技术|助力万物智联,瑞萨电子有何妙招?