|英伟达开源「Imaginaire」:九大图像及视频合成方法


机器之心报道
作者:蛋酱、小舟
图像 / 视频合成领域的集大成者 , 就在这一篇了 。
图像和视频等视觉数据的生成是机器学习和计算机视觉领域重要的研究问题之一 。 近几年 , 英伟达提出了 SPADE、MUNIT 等多个图像及视频合成模型 。
近日 , 英伟达又开源了一个新的 PyTorch 库「Imaginaire」 , 共包含 9 种英伟达开发的图像及视频合成方法 。
|英伟达开源「Imaginaire」:九大图像及视频合成方法
本文插图

项目地址:https://github.com/NVlabs/imaginaire
这九种方法分别为:
有监督的图像到图像转换
1、pix2pixHD
2、SPADE/GauGAN
无监督的图像到图像转换
1、UNIT
2、MUNIT
3、FUNIT
4、COCO-FUNIT
视频到视频转换
1、vid2vid
2、fs-vid2vid
3、wc-vid2vid
pix2pixHD
「pix2pixHD」是 pix2pix 的升级版本 , 具备高分辨率图像和语义处理功能 , 主要解决了深度图像合成编辑中的质量及分辨率问题 。
|英伟达开源「Imaginaire」:九大图像及视频合成方法
本文插图

?
项目主页:https://tcwang0509.github.io/pix2pixHD/
|英伟达开源「Imaginaire」:九大图像及视频合成方法
本文插图

?
论文链接:https://arxiv.org/pdf/1711.11585.pdf
在这篇论文中 , 来自英伟达和 UC 伯克利的研究者提出了一种使用条件 GAN 从语义标签图上合成高分辨率照片级逼真图像的方法 。 此前 , 条件 GAN 已经有了很广泛的应用 , 但生成结果均为低分辨率并与现实差异较大 。 因此 , 研究者使用了一种新的对抗损失、多尺度生成器和判别器架构来生成 2048x1024 的结果 。 此外 , 研究者为该框架扩展了两个附加功能 。 首先 , 合并了对象实例分割信息 , 实现了删除 / 添加对象和更改对象类别等操作;其次 , 提出了一种在相同输入下生成多种结果的方法 , 让使用者可以编辑对象外观 。 该论文被 CVPR 2018 接收 。
SPADE/GauGAN
在 GTC 2019 上 , 英伟达展示了一款交互应用「GauGAN」 。 它可以轻松地将粗糙的涂鸦变成逼真的杰作 , 令人叹为观止 , 效果堪比真人摄影师作品 。 GauGAN 应用主要使用的技术 , 就是英伟达的 SPADE 。
|英伟达开源「Imaginaire」:九大图像及视频合成方法
本文插图

项目主页:https://nvlabs.github.io/SPADE/
|英伟达开源「Imaginaire」:九大图像及视频合成方法
本文插图

论文地址:https://arxiv.org/pdf/1903.07291.pdf
在这篇论文中 , 来自 UC 伯克利、英伟达、MIT CSALL 的研究者提出了一种空间自适应归一化方法 , 在给定输入语义布局的情况下 , 实现了一种简单有效的逼真图像合成层 。 以前的方法直接将语义布局作为输入提供给深度网络 , 然后通过卷积、归一化和非线性层处理深度网络 。 实验表明 , 这种方法并不是最优的 , 因为归一化层倾向于「洗去」语义信息 。 为了解决这个问题 , 研究者提出使用输入布局 , 通过空间自适应的、学习的转换来调节归一化层中的激活函数 。 在几个具有挑战性的数据集上的实验表明 , 与现有方法相比 , 该方法在视觉保真度和与输入布局的对齐方面具有优势 。 最后 , 该模型允许用户控制合成图像的语义和风格 。 该论文被 CVPR 2019 接收为 Oral 论文 。
UNIT
项目地址:https://github.com/NVlabs/imaginaire/tree/master/projects/unit
|英伟达开源「Imaginaire」:九大图像及视频合成方法


推荐阅读