DeepTech深科技|挑战Deepfake中科大斩获亚军,与第一名仅差0.0005


美国大选在即 , 为了防范 Deepfake 视频干扰选情 , Twitter 和 Facebook 分别做出了应对策略 , Facebook 将会删除其认定的 Deepfake 视频 , 而 Twitter 打算在相关视频页面给出提示 。
早在去年年底 , Facebook 就拿出 1000 万美元当奖金 , 举办全球范围内的 Deepfake 检测大赛 。 这也是 Kaggle 平台历史上奖金额度最高的竞赛 。
后经半年的酣战 , 中国科技大学的俞能海、张卫明教授团队从全球 2265 支队伍中脱颖而出 , 获得亚军 , 最终成绩与第一名仅差 0.0005 。 此次挑战赛共收到 3.5 万个检测模型 , 能够夺得第二 , 实属不易 。
该团队的周文柏博士告诉 DeepTech , 本次比赛所获得的 30 万美元奖金会用于实验室建设和选手奖励 。
这支名为 “\WM/” 的队伍 , 主要由中科大信息处理中心的博士后、博士生和硕士生组成 。 虽然团队获奖信息在当时并未引起媒体太多关注 , 却在业界广为人知 。 不少企业主动来寻求合作 , 周文柏透露 , 华为、浙江省广电等企业就希望能够运用人工智能技术 , 希望预防手机拍摄的媒体素材、或者电台公开的素材被恶意窜改 。
【DeepTech深科技|挑战Deepfake中科大斩获亚军,与第一名仅差0.0005】
DeepTech深科技|挑战Deepfake中科大斩获亚军,与第一名仅差0.0005
本文插图

图 | Deepfake 检测挑战赛(来源:Kaggle 官网)
算力不优越 , 却能取得第二名 值得关注的是 , 这次迄今最大规模的 Deepfake 检测挑战赛也暴露出 , 目前的检测技术远远不够 。 在训练数据集上能够达到 90% 准确率的模型 , 到了验证数据集上 , 平均正确率只有 65.18% 。
因此两个阶段的名次变动非常大 , 不少第一阶段表现优异的模型 , 到第二阶段败下阵来 。 为什么会出现这种情况?
这与比赛的数据集有关 , 进行训练所有数据集都是预先公布的;而在验证环节 , 许多直接来自视频网站 , 基本等同实战 。 正是在这些首次遇到的视频面前 , 一众模型纷纷失去了被调教出的火眼金睛 。
来自中科大团队的周文柏博士解释 , 由于验证阶段的数据集很多是从视频网站上获取的野生数据 , 这会非常考验通过已知数据训练出模型的迁移能力 。 在第一阶段中 , 排名靠前的许多团队来自企业 , 拥有较好的算力资源 , 因此可能发挥的是算力优势 , 而非算法优势 。
在训练阶段一些模型有潜在的过拟合现象 。 当遇到陌生数据集 , 这个缺点就会被放大 。
难能可贵的是 , 中科大团队却势如黑马 。 第一阶段在 37 名 , 第二阶段直接蹿升到了第 2 名 。
本次比赛中 , 有的大型企业团队使用了 100 多块 NVIDIA V100 GPU , 中科大团队只用了不到 50 块 NVIDIA RTX 2080Ti GPU 。 无论是数量还是性能 , 中科大团队所使的 GPU 都与企业团队有较大差距 , 却依旧能得到最终第二名的优秀成绩 , 这足以说明其算法的优越 。
DeepTech深科技|挑战Deepfake中科大斩获亚军,与第一名仅差0.0005
本文插图

图 | 中科大参赛团队 \WM / 验证阶段取得第二名 , 比训练阶段名次上升了 35(来源:Kaggle 官网)
Deepfake 检测属于二分类的问题 , 即判断是真还是假 。 现有的分类方法大多是两种思路 。 一种从微观角度 , 沿用的是计算机视觉中图像分类的方式 , 比如寻找视频经过篡改所留下的像素痕迹 , 或是人脸部的细微特征差异 。
另一种宏观角度 , 则借鉴了传统的取证技术的思路 , 从视频的整体内容上进行检测 , 比如语音信息和人像结合 , 人物形象和背景融合等方向来寻找线索 。
周文柏介绍 , 他们团队的思路则介于微观和宏观之间 , 将 Deepfake 检测当做一个细粒度分类的任务 。 传统的图像分类是指将花、猫、鸟等对象进行分类 , 而细粒度分类任务则是在某一个大类下 , 继续分出不同的类别 , 比如不同的鸟类、不同型号的汽车 。


推荐阅读