科技女王范儿|港中文周博磊团队最新研究:无监督条件下GAN潜在语义识别指南

无监督条件下 , GAN模型潜在语义的识别似乎是一件非常具有挑战性的任务 。 最近 , 香港中文大学周博磊等人提出了一种名为「SeFa」的方法 , 为该问题提供了更优解 。
SeFa方法能够识别出不同GAN模型的潜在语义 , 进而进行图像编辑 。 如下图所示:
科技女王范儿|港中文周博磊团队最新研究:无监督条件下GAN潜在语义识别指南
文章图片
除了动漫以外 , SeFa方法还可以处理场景、人物、动物、物体等不同的图像 。
下图展示了对「猫片」的操控效果:
科技女王范儿|港中文周博磊团队最新研究:无监督条件下GAN潜在语义识别指南
文章图片
猫姿势的左右移动 。
科技女王范儿|港中文周博磊团队最新研究:无监督条件下GAN潜在语义识别指南
文章图片
猫姿势的上下移动 。 需要注意的是 , 在图像变换过程中 , 我们可以看到 , 还是有伪影的存在 。
借助SeFa方法 , 我们还可以调整车辆的形状:
科技女王范儿|港中文周博磊团队最新研究:无监督条件下GAN潜在语义识别指南
文章图片
以及调整车辆方向:
科技女王范儿|港中文周博磊团队最新研究:无监督条件下GAN潜在语义识别指南
文章图片
更多效果展示 , 请戳以下视频:
00:00/00:00倍速
接下来 , 我们来看该问题的难点以及SeFa方法的新颖之处 。
如何解释GAN的潜在空间?
生成对抗网络(GAN)在图像合成领域的应用已经十分广泛 。 近期的一些研究表明 , 在学习合成图像时 , GAN会自发地在潜在空间中表示出多种可解释属性 , 如用于人脸合成的性别特征、用于场景合成的光照条件 。 通过正确识别这些语义 , 我们可以将GAN学习到的知识重新利用 , 合理地控制图像生成过程 , 从而实现图像编辑功能的更广泛应用 , 如人脸操纵和场景编辑 。
解释GAN潜在空间的关键点在于找到与人类可理解属性相对应的子空间 。 通过这种方法 , 将潜码(latentcode)向特定子空间的方向移动 , 即可对应地改变合成图像的语义 。 然而 , 由于潜在空间的高维性以及图像语义的多样性 , 在潜在空间中寻找有效方向是极具挑战性的 。
现有的监督学习方法通常先随机抽取大量潜码 , 然后合成一组图像 , 并使用一些预定义标签进行图像标注 , 最后利用这些标注样本学习潜在空间中的分离边界(separationboundary) 。 要想得到训练该边界的标签 , 要么引入预训练语义预测器 , 要么利用图像的一些简单统计信息 。
港中文周博磊等人提出新方法「SeFa」 , 解释GAN内部表征
以往的方法严重依赖于预定义的语义和标注样本 , 存在局限性 。 最近 , 来自香港中文大学的研究者提出了一种新的生成方法 , 不再将合成样本作为中间步骤 , 而是通过直接探索GAN的生成机制来解释其内部表征 。
科技女王范儿|港中文周博磊团队最新研究:无监督条件下GAN潜在语义识别指南
文章图片
论文地址:https://arxiv.org/pdf/2007.06600.pdf
代码地址:https://github.com/genforce/sefa
项目主页:https://genforce.github.io/sefa/
具体而言 , 对于所有基于神经网络的GAN , 第一步通常采用一个全连接层将潜码输入到生成器中 , 它提供了将潜在空间投影到变换空间(transformedspace)的驱动力 。 这种变换实际上过滤了潜在空间中一些不重要的方向 , 从而突出了图像合成的关键方向 。
能够识别这些重要的潜在方向 , 我们就能够控制图像生成过程 , 即编辑合成图像的语义 。
在这篇论文中 , 研究者提出了一种新颖而简单的闭式方法「SeFa」 , 可用于GAN的潜在语义分解 。 现有方法通常使用三个步骤(采样、标注和边界搜索) , 而SeFa方法只需使用GAN模型学得的权重进行语义发现 。


推荐阅读