|英伟达开源「Imaginaire」：九大图像及视频合成方法

机器之心报道
作者：蛋酱、小舟
图像 / 视频合成领域的集大成者，就在这一篇了。
图像和视频等视觉数据的生成是机器学习和计算机视觉领域重要的研究问题之一。近几年，英伟达提出了 SPADE、MUNIT 等多个图像及视频合成模型。
近日，英伟达又开源了一个新的 PyTorch 库「Imaginaire」，共包含 9 种英伟达开发的图像及视频合成方法。

本文插图

项目地址：https://github.com/NVlabs/imaginaire
这九种方法分别为：
有监督的图像到图像转换
1、pix2pixHD
2、SPADE/GauGAN
无监督的图像到图像转换
1、UNIT
2、MUNIT
3、FUNIT
4、COCO-FUNIT
视频到视频转换
1、vid2vid
2、fs-vid2vid
3、wc-vid2vid
pix2pixHD
「pix2pixHD」是 pix2pix 的升级版本，具备高分辨率图像和语义处理功能，主要解决了深度图像合成编辑中的质量及分辨率问题。

本文插图

?
项目主页：https://tcwang0509.github.io/pix2pixHD/

本文插图

?
论文链接：https://arxiv.org/pdf/1711.11585.pdf
在这篇论文中，来自英伟达和 UC 伯克利的研究者提出了一种使用条件 GAN 从语义标签图上合成高分辨率照片级逼真图像的方法。此前，条件 GAN 已经有了很广泛的应用，但生成结果均为低分辨率并与现实差异较大。因此，研究者使用了一种新的对抗损失、多尺度生成器和判别器架构来生成 2048x1024 的结果。此外，研究者为该框架扩展了两个附加功能。首先，合并了对象实例分割信息，实现了删除 / 添加对象和更改对象类别等操作；其次，提出了一种在相同输入下生成多种结果的方法，让使用者可以编辑对象外观。该论文被 CVPR 2018 接收。
SPADE/GauGAN
在 GTC 2019 上，英伟达展示了一款交互应用「GauGAN」。它可以轻松地将粗糙的涂鸦变成逼真的杰作，令人叹为观止，效果堪比真人摄影师作品。 GauGAN 应用主要使用的技术，就是英伟达的 SPADE 。

本文插图

项目主页：https://nvlabs.github.io/SPADE/

本文插图

论文地址：https://arxiv.org/pdf/1903.07291.pdf
在这篇论文中，来自 UC 伯克利、英伟达、MIT CSALL 的研究者提出了一种空间自适应归一化方法，在给定输入语义布局的情况下，实现了一种简单有效的逼真图像合成层。以前的方法直接将语义布局作为输入提供给深度网络，然后通过卷积、归一化和非线性层处理深度网络。实验表明，这种方法并不是最优的，因为归一化层倾向于「洗去」语义信息。为了解决这个问题，研究者提出使用输入布局，通过空间自适应的、学习的转换来调节归一化层中的激活函数。在几个具有挑战性的数据集上的实验表明，与现有方法相比，该方法在视觉保真度和与输入布局的对齐方面具有优势。最后，该模型允许用户控制合成图像的语义和风格。该论文被 CVPR 2019 接收为 Oral 论文。
UNIT
项目地址：https://github.com/NVlabs/imaginaire/tree/master/projects/unit

|英伟达开源「Imaginaire」：九大图像及视频合成方法

推荐阅读

【】欧盟以网络攻击为由制裁中方有关个人和实体驻欧盟使团回应

崂山贡红茶,崂山红茶怎么冲泡方法

网络用语kp是什么意思？

植物|好养的垂吊花，挂着养长得更好，开花多成了绿窗帘

思丝如针|但给我生了一儿一女，还照顾我妈，我很感恩，老婆虽然脾气差

博弈论|斯蒂芬·金的“戒烟公司”

吱呀|阴阳师笼目鸟皮肤获取及上线时间介绍面灵气笼目鸟皮肤怎么样

微信|微信这波更新！终于可以屏蔽群聊了

#笑笑君#你好淡定啊，为啥你就与众不同呢！，搞笑GIF趣图:大妈

怀孕初期可以抱小孩吗

电子税务局电子税务局登录时密码错误无法登录，如何处理？你知道吗？

「包献华」科技部：目前尚未发现复阳患者导致疾病传播案例

在XX大学读法律硕士是种啥体验

暴龙眼镜真假辨别

#成都商报红星新闻#54岁妇科女专家转型科普：“守护她们，就是守护千万个家庭”

漂亮的女人和会持家的女人，男人会选择哪种？

江西进贤发生一起持刀伤害致死命案，警方：五名嫌疑人已被控制

孔蒂|迪马济奥：若孔蒂今夏离开国米阿莱格里将成新帅

晓萌美食|巧克力饼干、蔓越莓奶酥、黄瓜凉糕、黑米糕、南瓜糕的美味做法

任嘉伦|请君22集封神！任嘉伦为一场哭戏酝酿整整三个月，不惧怕古偶标签