「智东西」AI分类器可能误判!科学家设计攻击实验,让Deepfake以假乱真( 二 )


一、白盒攻击
对于开放了访问权限的分类器 , 研究人员用白盒攻击评估其稳健性 。
白盒攻击即攻击者能够获知分类器所使用的算法以及算法使用的参数 。 在产生对抗性攻击数据的过程中 , 攻击者能够与分类器系统产生交互 。
攻击过程中用到的所有图像都来自一个包含94036张图像的视觉数据库 。
开始白盒攻击之前 , 基于这个数据库的分类器得到了0.97的AUC数值 。 即使在执行典型的清洗策略隐藏图像合成痕迹后 , 分类器的AUC数值仍保持在0.94以上 。
接下来研究人员使用了4种白盒攻击方法 。 这4种攻击在之前的对抗性示例中已有过研究 。 攻击的具体方式是对图像进行修改 , 使分类器误认为它们是真实的 。
「智东西」AI分类器可能误判!科学家设计攻击实验,让Deepfake以假乱真
本文插图

▲四种攻击前后 , 分类器的ROC曲线图 。 蓝色实线代表JPEG格式的合成图像 , 蓝色虚线代表PNG格式的合成图像
1、失真最小化攻击(Distortion-minimizing Attack)
失真最小化攻击即对合成图像添加一个较小的加法扰动δ 。 假设一个合成图像x先被分类器判定为假 , 施加扰动后 , (x+δ)就会被判定为真 。
「智东西」AI分类器可能误判!科学家设计攻击实验,让Deepfake以假乱真
本文插图

▲a:分类器把假图像识别为真;b:分类器把真图像识别为假 。 把像素翻转1% , 就会有一半的假图像被判定为真;把像素翻转7% , 就会有一半的真图像被判定为假 。
2、损失最大化攻击(Loss-Maximizing Attack)
损失最大化攻击即定义一个更简单的目标函数 , 更大限度地提升合成图像被判定为真的概率 。
3、通用对抗性补丁攻击(Universal Adversarial-Patch Attack)
失真最小化攻击方法有有一个局限性:攻击者需要花费0.1秒为每个图像定制攻击方式 。
为了弥补这一局限性 , 研究人员创建了一个单一的可视噪声模板补丁 。 这个补丁可以叠加在任何假图像上 , 有效增加了假图像的迷惑性 。
4、通用潜空间攻击(Universal Latent-Space Attack)
不同于之前三种方法通过对假图像施加扰动来影响分类结果 , 第四种攻击方法是对图像的潜在空间进行攻击 。
「智东西」AI分类器可能误判!科学家设计攻击实验,让Deepfake以假乱真
本文插图
【「智东西」AI分类器可能误判!科学家设计攻击实验,让Deepfake以假乱真】

▲a为通用对抗性补丁攻击效果 , b~d为通用潜空间攻击效果 。 图中所有假图像都被分类器误判为真
经过白盒攻击 , 分类器的AUC数值下降到了0.1以下 。
二、黑盒攻击
论文指出 , 现实中的社交网站、约会网站等 , 并不会公开其鉴定分类器的算法 , 因此很难进行前面所说的白箱攻击 。
面对这种情况 , 研究人员进行了黑盒攻击 。 黑盒攻击假设对方知道攻击的存在 , 并且掌握了一般的防御策略 。
研究结果显示 , 即使在这种限制性较强的黑盒攻击条件下 , 鉴定分类器也很容易受到对抗性因素影响 。 经过黑盒攻击 , 分类器的AUC数值下降到0.22以下 。
结语:现有分类器有局限性 , 仍需深入研究
谷歌公司和加州大学伯克利分校研究团队证明 , 只要对虚假图片适当加以处理 , 就能使其“骗”过分类器 。
这种现象令人担忧 , 论文中写道:“部署这样的分类器会比不部署还糟糕 , 不仅虚假图像本身显得十分真实 , 分类器的误判还会赋予它额外的可信度” 。
因此 , 研究人员建议开创新的检测方法 , 研究出可以识别经过再压缩、调整大小、降低分辨率等扰动手段处理的假图像 。
据悉 , 目前有许多机构正在从事这一工作 , 如脸书、亚马逊网络服务及其他机构联合发起了“Deepfake鉴别挑战” , 期待能探索出更好的解决方案 。


推荐阅读