闲情居|当支持向量机遇上神经网络:SVM、GAN距离之间的关系( 二 )


理解这种差异更好的一种方式是:
将(1)视为「样本的间隔」;
将(2)视为「数据集的间隔」 。
但是 , 为了消除这两种情况的歧义 , 本文将前者称为「间隔(margin)」 , 将后者称为「最小间隔(minimum margin)」 。
Hard-SVM(原始形式)解决了最大化最小间隔的问题 。 Soft-SVM 解决了另一个更简单的问题——最大化期望 soft-margin(最小化期望 Hinge 损失) 。 这个问题很容易解决 , hinge 损失确保远离边界的样本不会对假重复 Hard-SVM 效果的尝试产生任何影响 。
从这个角度看 , 最大化期望间隔(而不是最大化最小间隔)仍会导致最大间隔分类器 , 但是分类器可能会受到远离边界的点的影响(如果不使用 Hinge 损失的话) 。 因此 , 最大化期望间隔意味着最大化任何样本(即数据点)与决策边界之间的平均距离 。 这些方法就是最大间隔分类器(MMC)的示例 。
为了尽可能地通用化 , 该研究设计了一个框架来导出 MMC 的损失函数 。 研究者观察到 , 该框架可以导出带有梯度惩罚的基于间隔的目标函数(目标函数 F 的形式为 F(yf(x))) 。 这就意味着标准 GAN、最小二乘 GAN、WGAN 或 HingeGAN-GP 都是 MMC 。 所有这些方法(和 WGAN-GP 一样使用 L2 梯度规范惩罚时)都能最大化期望 L2 范数间隔 。
研究者还展示了 , 使用 Lipschitz-1 判别器的大多数 GAN(谱归一化 HingeGAN、WGAN、WGAN-GP 等)都可被表示为 MMC , 因为假定 1-Lipschitz 等效于假定有界梯度(因此可作为一种梯度惩罚形式) 。
重要的是 , 这意味着我们可以将最成功的 GAN(BigGAN、StyleGAN)看作 MMC 。 假定 Lipschitz-1 判别器一直被看作实现优秀 GAN 的关键因素 , 但它可能需要一个能够最大化间隔的判别器和相对判别器(Relativistic Discriminator) 。 该研究基于 MMC 判别器给伪生成样本带来更多梯度信号的事实 , 阐述了其优点 。
在这一点上 , 读者可能有疑问:「是不是某些间距比其它间距更好?是的话 , 我们能做出更好的 GAN 吗?」
这两个问题的答案都是肯定的 。 最小化 L1 范数的损失函数比最小化 L2 范数的损失函数对异常值更具鲁棒性 。 基于这一事实 , 研究者提出质疑:L1 范数间隔会带来鲁棒性更强的分类器 , 生成的 GAN 也可能比 L2 范数间隔更佳 。
重要的是 , L1 范数间隔会造成 L∞ 梯度范数惩罚 , L2 范数间隔会造成 L2 梯度范数惩罚 。 该研究进行了一些实验 , 表明 L∞ 梯度范数惩罚(因使用 L1 间隔产生)得到的 GAN 性能更优 。
此外 , 实验表明 ,HingeGAN-GP 通常优于 WGAN-GP(这是说得通的 , 因为 hinge 损失对远离边界的异常值具有鲁棒性) , 并且仅惩罚大于 1 的梯度范数效果更好(而不是像 WGAN-GP 一样 , 使所有的梯度范数逼近 1) 。 因此 , 尽管这是一项理论研究 , 但研究者发现了一些对改进 GAN 非常有用的想法 。
使用该框架 , 研究者能够为 Relativistic paired (Rp) GAN 和 Relativistic average (Ra) GAN 定义决策边界和间隔 。 人们常常想知道为什么 RpGAN 的性能不如 RaGAN , 在这篇文章中 , 研究者对此进行了阐述 。
使用 L1 范数间隔的想法只是冰山一角 , 该框架还能通过更具鲁棒性的间隔 , 设计出更优秀的 GAN(从而提供更好的梯度惩罚或「光谱」归一化技术) 。 最后 , 对于为什么梯度惩罚或 1-Lipschitz 对不估计 Wasserstein 距离的 GAN 有效 , 该研究也提供了明确的理论依据 , 更多细节可参考原论文 。


推荐阅读