「智东西」AI分类器可能误判!科学家设计攻击实验,让Deepfake以假乱真


智东西(公众号:zhidxcom)
编 | 董温淑
备选标题:
1、最先进分类器也可能误判!科学家设计攻击实验 , 分类准确率下降到0.1以下
2、指望AI鉴别Deepfake?最新研究显示可靠性较低
智东西4月9日消息 , 谷歌公司和加州大学伯克利分校的研究人员最近的一项研究显示 , 现有的鉴定分类器在一些情况下不能有效甄别出Deepfake作品 。
用人工智能手段进行人体图像合成被称为Deepfake 。 简单来说 , Deepfake技术可以给图片、视频中的人物“换脸” 。 网络上流行的换脸app、一键脱衣app均是基于Deepfake技术实现功能 。
提起Deepfake , 就不能不提到滥用这种技术会造成严重恶性后果 。 例如此前曝出的新闻:网络IP伪造名人色情影片、犯罪分子冒充英国能源公司CEO挪用公司资金、别有用心者在大选期间传播对竞选者不利的虚假材料等等 。
为了避免这种情况 , 许多网站引入了能够区分真假内容的AI鉴定分类系统 。
然而 , 谷歌公司和加州大学伯克利分校的研究表明 , 即使是最先进的分类器也很容易被攻击影响 。
无独有偶 , 另一个由加州大学圣地亚哥分校主导的研究也表明 , 只要在虚假视频中添加一些信息 , 分类器就无法把它辨别出来 。
这些研究结果为我们敲响了警钟:目前的分类器并不是100%可靠 , 仍需警惕Deepfake制作的虚假信息 。
目前谷歌和加州大学伯克利分校的研究已经发表在学术网站arXiv上 , 论文标题为《用白盒、黑盒攻击绕过Deepfake图像鉴别工具(Evading Deepfake-Image Detectors with White- and Black-Box Attacks)》
论文链接:https://arxiv.org/pdf/2004.00622.pdf
「智东西」AI分类器可能误判!科学家设计攻击实验,让Deepfake以假乱真
本文插图

实验中用到的假图像基于生成对抗网络(generative adversarial networks , GAN)来合成 。 GAN由一个生成网络和一个判别网络组成 。
GAN模型的学习过程就是生成网络和判别网络的相互博弈的过程:生成网络从潜在空间中随机取样作为输入 , 目标是输出与训练集中样本一致的图像 。 判别网络的目标则是判定生成网络的输出是否属于训练集 。
经过一段时间的学习 , 生成网络输出的图像将与训练集中的十分相似 , 不能被判别网络识别出来 。
研究人员共对3个分类器做了测试 , 其中两个为第三方分类器 , 一个为研究人员训练出的用于对照的分类器 。
研究人员选用了两种不同训练方式的第三方分类器 。
第一个的分类器模型基于深度残差网络ResNet-50(Deep residual network) 。
研究人员预先用大型视觉数据库ImageNet对ResNet-50进行了训练 。 训练集中包括720000个训练图像和4000个验证图像 , 其中一半为真实图像 , 另一半是用ProGAN生成的合成图像 。 训练集中的图像采用空间模糊和JEPG压缩方法增强 。
经过训练后 , 这个分类器能准确识别出ProGAN生成的图像 , 而且还能分类其他未被发现的图像 。
第二个鉴定分类器采用的是基于相似性学习(similar learning-based)的方法 。 经过训练后这款分类器可以准确辨认出由不同生成器合成的图像 。
研究团队还自己搭建了一个鉴定分类器模型 , 作为前述两个鉴定分类器的对照示例 。 这个分类器采用一百万个ProGAN生成的图像进行训练 , 其中真假图像各占一半 。 论文中指出 , 这个分类器的训练管道比前述两种简单很多 , 因此错误率是前面两个模型的3倍 。
研究人员根据分类器是否开放了访问权限 , 选用了不同的攻击方式 。 对开发访问权限的分类器采用白盒攻击;对不开放访问权限的分类器采用黑盒攻击 。
另外 , 研究人员用接收者操作特征曲线(ROC曲线)评估分类器的正确率 。 评估标准是曲线下面积(AUC)的大小 。 AUC的取值范围为0~1 , 一般来说AUC>0.5即代表分类器有预测价值 , AUC值越大代表分类器准确率越高 。


推荐阅读