AI科技评论TB@大规模计算时代:深度生成模型何去何从( 五 )


BigGAN图像生成 。 BigGAN是由Google DeepMind于2018年推出的 , 它是我们知道的最大的GAN模型 。 我们在以下三个数据集上将FQ-GAN与BigGAN进行了比较:CIFAR 10 ,CIFAR 100 和 ImageNet 。 这三个数据集依次具有越来越多的图像类别或者样本 。 就FID值(该指标衡量了真假数据之间的特征统计差异)而言 , FQ-GAN始终优于BigGAN超过10% 。 我们的方法还改进了Twin Auxiliary Classifiers GAN , 这是在NeurIPS 2019上出现的GAN的一个新变体 , 它特别适合细粒度的图像数据集 。
StyleGAN人脸合成 。 StyleGAN,是由NVIDIA在2018年12月推出的 , 该模型可以生成特别逼真的高分辨率人脸面部肖像的图像(想象下 Deep Fake 的潜在影响) 。 StyleGAN是基于Progressive GAN进行改进的 , 但它引入更多使研究人员可以更好地控制特定的视觉功能的机制 。 我们在FFHQ数据集上进行比较 , 图像分辨率从 32x32 一直到 1024x2014 。 结果显示FQ-GAN收敛速度更快 , 并产生更好的最终性能 。 感受一下:

AI科技评论TB@大规模计算时代:深度生成模型何去何从
本文插图

表格2:FQ对StyleGAN的提升 。 在FFHQ数据集上不同分辨率下的 FID-50k scores (越低越好) 。

AI科技评论TB@大规模计算时代:深度生成模型何去何从
本文插图

图7:FQ-StyleGAN的生成的1024x2014的样例图片 (在8块V100上训练一周多就为看这些美女帅哥?) 。
U-GAT-IT图像转化 。 U-GAT-IT 是刚出现在 ICLR 2020上的最先进的图像样式转换(image style transfer)方法 。 在五个基准数据集上 , 我们看到FQ在很大程度上改善了量化性能 , 并显示了更好的人类感知评估结果 。
3、Prevalent: 在视觉和语言导航任务上的应用
通过对图像和语言的语义的进一步了解 , 自然而然的下一步就是使机器在理解多模态输入后能采取行动以完成指定任务 。 为了实现此目标 , 我们碰到的一项基本挑战就是 “遵循自然语言的指示并让机器能够学习如何在视觉环境中导航” (vision-and-language navigation , 简称VLN) 。 在理想情况下 , 我们希望一次性地训练一个通用的机器 , 它可以迅速适应多个不同的下游任务 。
为此 , 我们提出了Prevalent , 第一个遵循预训练和微调范式的VLN算法 。 如图8a所示 , 我们将预训练的数据样本表示为三元组(图像-文本-动作) , 并以两个目标对模型进行预训练:掩盖语言建模(masked language modeling)和动作预测 (action prediction) 。 由于预训练不涉及最终的下游学习目标 , 因此这种自我监督的学习方法通常需要大量的训练样本才能发现多模态数据的内部本质 , 从而很好地泛化到新任务上 。
在我们的研究中 , 我们发现该子领域最大的训练数据集R2R仅包含104,000个样本 , 这比用于自然语言(language pre-training)还有多模态(vision-and-language pretraining )的那些子领域的预训练数据集要小一个数量级 。 这会导致以下尴尬的情况:一方面由于训练数据不足而使得预训练质量不理想 , 另一方面 , 使用人工注释来收集此类样本又非常昂贵 。
在我们的论文 “Towards Learning a Generic Agent for Vision-and-Language Navigation via Pre-training” 中 ,我们尝试了用深度生成模型来合成这些多模态数据 , 很幸运地发现这样做居然是有效果的 。 我们首先训练一个自动回归模型(相当于VLN领域的 Speaker 模型) , 该模型可以根据R2R数据集上的机器人的轨迹(一系列的动作和视觉图像的序列)生成语言指令 。 然后 , 我们使用模拟器(Matterport 3D Simulator)收集大量的最短轨迹 , 并使用生成模型合成它们相应的指令 。 这产生了6,482,000个新的训练样本 。 通过图8b中比较了这两个数据集 , 我们看到合成数据占了98.4%的预训练数据 。 我们的Prevalent就是预训练在这样的组合数据集上 。


推荐阅读