闲情居|当支持向量机遇上神经网络:SVM、GAN距离之间的关系

选自arXiv
作者:Alexia Jolicoeur-Martineau
编辑:小舟、蛋酱
SVM 是机器学习领域的经典算法之一 。 如果将 SVM 推广到神经网络 , 会发生什么呢?
支持向量机(Support Vector Machine , SVM)是大多数 AI 从业者比较熟悉的概念 。 它是一种在分类与回归分析中分析数据的监督式学习模型与相关的学习算法 。 给定一组训练实例 , 每个训练实例被标记为属于两个类别中的一个或另一个 , SVM 训练算法创建一个将新的实例分配给两个类别之一的模型 , 使其成为非概率二元线性分类器 。 SVM 模型将实例表示为空间中的点 , 这样映射就使得单独类别的实例被尽可能宽的明显的间隔分开 。 然后 , 将新的实例映射到同一空间 , 并基于它们落在间隔的哪一侧来预测所属类别 。
除了进行线性分类之外 , SVM 还可以使用所谓的核技巧有效地进行非线性分类 , 将其输入隐式映射到高维特征空间中 。
本文将介绍一篇来自蒙特利尔大学的论文《SVM、Wasserstein 距离、梯度惩罚 GAN 之间的联系》 。 在这篇论文中 , 研究者阐述了如何从同一框架中得到 SVM 和梯度惩罚 GAN 。
据论文一作介绍 , 这项研究的灵感来自她的博士资格考试 。 在准备过程中 , 她学习了 SVM , 并思考了这个问题:「如果将 SVM 推广到神经网络会发生什么?」顺着这个思路 , 研究者发现了 SVM、GAN、Wasserstein 距离之间的关系 。
闲情居|当支持向量机遇上神经网络:SVM、GAN距离之间的关系论文地址:
代码地址:
该研究将最大间隔分类器(MMC)的概念扩展到任意范数和非线性函数 。 支持向量机是 MMC 的一个特例 。 研究者发现 , MMC 可以形式化为积分概率度量(Integral Probability Metrics , IPM)或具备某种形式梯度范数惩罚的分类器 。 这表明它与梯度惩罚 GAN 有直接关联 。
该研究表明 , Wasserstein GAN、标准 GAN、最小二乘 GAN 和具备梯度惩罚的 Hinge GAN 中的判别器都是 MMC , 并解释了 GAN 中最大化间隔的作用 。 研究者假设 L^∞ 范数惩罚和 Hinge 损失生成的 GAN 优于 L^2 范数惩罚生成的 GAN , 并通过实验进行了验证 。 此外 , 该研究还导出了 Relativistic paired (Rp) 和 average (Ra) GAN 的间隔 。
这篇论文共包含几部分:在第二章中 , 研究者回顾了 SVM 和 GAN;第三章 , 研究者概述了最大间隔分类器(MMC)的概念;第四章 , 研究者用梯度惩罚解释了 MMC 和 GAN 之间的联系 。 其中 4.1 提到了强制 1-Lipschitz 等价于假设一个有界梯度 , 这意味着 Wasserstein 距离可以用 MMC 公式来近似估算;4.2 描述了在 GAN 中使用 MMC 的好处;4.3 假定 L1 范数间隔能够导致更具鲁棒性的分类器;4.4 推导了 Relativistic paired GAN 和 Relativistic average GAN 的间隔 。 最后 , 第五章提供了实验结果以支持文章假设 。
SVM 是 MMC 的一个特例 。 MMC 是使间隔最大化的分类器 f(间隔指的是决策边界与数据点之间的距离) 。 决策边界是指我们无法分辨出样本类别的区域(所有 x 使得 f(x)=0) 。
Soft-SVM 是一种特殊情况 , 它可以使最小 L2 范数间隔最大化 。 下图展示了实际使用中的 Soft-SVM:
闲情居|当支持向量机遇上神经网络:SVM、GAN距离之间的关系【闲情居|当支持向量机遇上神经网络:SVM、GAN距离之间的关系】在解释这一结果之前 , 我们需要了解一个关键要素 。 关于「间隔」有多种定义:
(1)样本与边界之间的最小距离;
(2)距边界最近的点与边界之间的最小距离 。
定义(2)更为常用 。 但是如果使用此定义 , 那么 SVM 文献中所谓的「函数间隔(functional margin)」和「几何间隔(geometric margin)」就都不能被视为间隔 。 这可能会让人十分困惑 。


推荐阅读