阿里巴巴|阿里研发AI技术0.15秒识别拦截外语脏话图 覆盖近30个语种

一年多前 , 阿里巴巴国际安全内容风控小二小荷(化名)在用户交互场景发现了特殊的为规避平台审查的“脏话”案例 。
她的工作是借助技术和规则识别与清扫影响清朗环境的违规内容 , 刚开始 , 一些小广告和口吐芬芳的脏话只是以文字形式呈现 , 后来随着对抗升级 , 一些脏话嵌入到图片中 , 甚至会使用多国语言进行伪装 。
为解决这个问题 , 阿里安全进行了多语种识别技术升级 。近日 , 阿里安全算法团队宣布 , 其研发用于网络脏话的AI(OCR)技术 , 已能识别近30种语言 , 包括嵌入图片中的英文、阿拉伯、俄语、法语、西语、日语、韩语、泰语、越南语、波斯语、孟加拉、尼泊尔、僧伽罗、朝鲜、苏丹、德语、荷兰语 , 以及马来语、塔加洛语、土耳其语、意大利语、印尼语等国语言 , 甚至还包括三种中国少数民族语言 。
在部分国际平台中 , “买家”在商品评论中以英语评论图骂人 , 或者在交互场景中 , 买卖双方以俄语脏话图片对阵 。国际平台风控团队和算法团队复盘了很多案例 , 发现除了多语种脏话 , 多语种垃圾广告以及不良信息也会暗藏在图片中 , 试图对抗风控 。
全球有几百种语言 , 重点的语言也有几十种 , 一个工作人员最多认识三四种语言 , 在国际化场景下 , 靠人工识别风险图片是不现实的 , 多语言识别的技术需求应运而生 。
阿里巴巴|阿里研发AI技术0.15秒识别拦截外语脏话图 覆盖近30个语种
文章图片
图(左)为俄语脏话示意图 图(右)为暗藏英语脏话的骂人图
阿里安全高级算法工程师沄帆介绍 , 要识别多语种文字 , 就要了解各个语言文字特点 , 以及影响算法识别的问题 。每种文字体系都有自己的字体 , 不同字体会导致同一字符出现字形上的差异 , 例如下左图展示了汉字“字”在不同字体时的形态 , 以及手写文字中的字符变化 。下右图则展示了俄语字母在手写体和印刷体时的差异 , 红框标出了部分字符会出现字形上的巨大变化 。
阿里巴巴|阿里研发AI技术0.15秒识别拦截外语脏话图 覆盖近30个语种
文章图片
阿里巴巴|阿里研发AI技术0.15秒识别拦截外语脏话图 覆盖近30个语种
文章图片
不同字体会导致同一字符出现字形上的差异(图片来源:网络)
“字符连接导致字形变化 , 不同文字体系 , 书写及阅读顺序是不同的 , 这些都会影响AI识别和对语义的判断 。”沄帆说 。例如 , 相同的单词在不同的语种里也可能有不同的含义 , “jammer”在荷兰语里是“遗憾”的意思 , 但是在英语中是“信号屏蔽器” , 可能涉及违规 。
“以前没有多语种识别功能的时候 , 我们如果把这个口语词直接拦截 , 可能会造成‘误杀’ , 脏话图识别也是如此 , 要依据语种来判断 。”小荷说 。
除此之外 , 还有脏话图以置换正常字符顺序 , 对抗风控的情况出现 , 如下图所示 , 即使调换字符顺序 , 人还是可以轻而易举地判断单词的含义 , 但这种“攻击”试图以打乱字母顺序的方式骗过机器识别 。
阿里巴巴|阿里研发AI技术0.15秒识别拦截外语脏话图 覆盖近30个语种
文章图片
对抗的脏话图
当然 , 要训练如此多语种的识别模型 , 并解决多种对抗情况并不容易 。技术团队既要保证好的识别效果 , 又要尽可能提高计算效率及控制成本 , 解决好训练样本及模型方案的问题 。
通过一年多努力研究 , 阿里安全算法团队对这些点进行了逐个突破 , 通过改进多语言样本生成方案与多语种识别模型框架 , 在多种图片语言的识别上做到了高识别率 , 以及做到识别1张脏话图只需0.15秒的速度 , 目前该技术也已应用在阿里多项国际业务中 , 总体识别准确率可达95%以上 , 并对各种艺术字体、复杂背景以及手写图进行了针对性识别优化 。


推荐阅读