科技生活大侠阿里发布“AI安全诊断大师”,帮AI体检看病一条龙服务( 三 )


文章图片
对AI攻防的探索
【科技生活大侠阿里发布“AI安全诊断大师”,帮AI体检看病一条龙服务】除了尝试将模型攻击防御技术在实际算法服务场景上落地 , 阿里安全图灵实验室的工程师也在坚持研发新技术推动AI安全更好地服务实际应用 。
在攻击方面 , 他们提出一种针对k近邻分类器的攻击方法 , k近邻分类器作为无参模型 , 不会回传梯度 , 也就无法提供信息用于对抗样本的生成 。 为了攻击这样的模型 , 研究者们设计了一种新的策略 , 提出了深度k近邻区块(DkNNB) , 用于估计k近邻算法的输出 。 具体的 , 提取深度分类模型某层特征 , 使用k近邻方法可以获得其最近的k个邻居 , 并统计这些邻居的标签分布 , 以每类出现概率分布作为最终的优化目标 , 来优化DkNNB参数 。
科技生活大侠阿里发布“AI安全诊断大师”,帮AI体检看病一条龙服务
文章图片
针对目前防御性能突出的kNN模型进行攻击实验
在防御方面 , 他们提出了一种基于Transformer的对抗样本检测方法 , 改进了传统对抗样本检测方法只能检测特定攻击 , 难以泛化到其他攻击的缺陷 。 新的对抗样本检测方法通过自适应的学习样本在特征空间中与其k近邻个样本特征之间的关联 , 得到比传统用特征空间人工距离度量来分类 , 更加泛化通用的检测器 。 该方法面向更加实际场景的对抗攻击检测 , 目前已在某些内部场景中测试使用 。
科技生活大侠阿里发布“AI安全诊断大师”,帮AI体检看病一条龙服务
文章图片
通过Transformer框架来更好的检测对抗样本
另外 , 阿里安全图灵实验室的研究者发现 , 自监督模型在对抗样本上的具有的天然防御能力 , 以此为基础 , 提出了一种新的基于自监督模型的对抗训练方法 , 进一步提升了模型的防御能力 , 以上两个工作即将在线上举办的ICASSP2020学术会议发表 。
科技生活大侠阿里发布“AI安全诊断大师”,帮AI体检看病一条龙服务
文章图片
基于自监督模型的对抗训练
不久前 , 阿里安全还发布了一个高效打造AI深度模型的“AI训练师助手” , 让AI训练模型面对新场景时不用从头学习 , 直接从已经存在的模型上迁移 , 迅速获得别人的知识、能力 , 成为全新的AI模型 , 将模型打造周期从一个月缩短为一天 。
科技生活大侠阿里发布“AI安全诊断大师”,帮AI体检看病一条龙服务
文章图片
搭建AI安全研究者社区
为了让AI对抗研究进展更快 , 阿里安全图灵实验室正在搭建对抗攻防研究者社区 , 联合天池承办一系列AI对抗攻防竞赛 , 并面向顶尖高校企业进行推广 , 吸引了大批高水平的选手 。 已举办的比赛覆盖了从ImageNet图像分类、淘宝类目识别、人脸识别等多个场景 。
阿里安全图灵实验室的工程师们开发了完整的后台评估框架 , 可以评测包含白盒/黑盒攻击、有目标/无目标攻击、模型防御等多种攻防场景 。
华棠表示 , 从已经成功举办的比赛看 , 多种外部选手提供的攻击或者防御策略 , 为发现更多实际场景中AI算法的潜在威胁 , 并针对这些威胁开发鲁棒模型提供了参考 。
阿里安全图灵实验室在2019年上半年成功举办了阿里巴巴首个AI对抗算法竞赛 , 以淘宝宝贝主图图像类目分类预测作为场景 , 公开了11万张 , 110个类的淘宝商品图像数据集 , 包含服装、鞋子、生活家居用品等类目 。
比赛通过无目标攻击 , 有目标攻击和防御三个赛道进行 , 吸引了2500支高校队伍参加 。 推动了AI安全领域被更多人知晓 , 并打造了AI对抗样本研究者社区 , 促进交流的同时 , 也让更多感兴趣的人加入到其中来 。
随后 , 阿里安全图灵实验室联合清华大学举办安全AI挑战者计划系列赛 , 探索在现实场景中 , 对抗攻击的可行性 。 为了模拟最真实的黑盒场景 , 这个系列赛并不公开后台算法 , 也禁止选手大量query后台模型 。 第一季的安全AI挑战者计划分为三期 , 场景分别为人脸识别 , ImageNet图像分类 , 以及文本分类 。 现在 , 第一季的安全AI挑战者计划已经结束 , 选手们参赛的同时也体验了真实场景中AI安全攻防的复杂性 。


推荐阅读