张伟彬|声纹反欺诈已挽回数十万元损失 专家:系统识别准确率近99%

_原题为 声纹反欺诈已挽回数十万元损失 专家:系统识别准确率近99%
近年来 , 盗用他人身份进行信贷欺诈的案例时有发生 。 据媒体报道 , 此前陈先生准备买房时 , 却发现自己名下多了一笔490万元的贷款 , 且已产生超过267万元的利息 。 但经鉴定 , 借款材料上的签名和指纹均非出自陈先生 。
为鉴别是否不法分子盗用他人身份进行信用卡欺诈 , 中国工商银行于今年六月推出声纹风控系统 , 该系统第一批于北京、湖北、四川和陕西的四家分行上线 , 上线一周便成功防堵欺诈数十笔 , 挽回经济损失数十万元 。
那么 , 这套帮助银行进行“反欺诈”的声纹系统是如何运作的?背后的原理又是怎样的呢?为此 , 南都采访人员采访了此次为工行提供声纹技术的声扬科技首席科学家张伟彬 。
声纹认证早有应用 , 现有系统识别准确率接近99%
南都:在工行业务系统中 , 哪些环节运用到了声纹技术?
张伟彬:工行首期投产应用在信用卡声纹风控环节 , 在线上办理信用卡申请、启卡、尽调环节 , 通过声纹1:N辨认 , 搜索黑声纹库 , 若识别出具有相同声纹但登记了不同身份信息的可疑人员 , 及时为银行客户经理预警 , 避免损失 。
未来 , App的登录环节将是一个很好的应用场景 。 在登录界面弹出一串随机数字 , 用户需要将数字读对且声纹匹配成功 , 才能登录 , 这样更安全地保障用户账户安全 。
南都:怎么想到利用声纹进行反欺诈的?
张伟彬:其实类似的事情我们之前已经做过了 , 只是在国内应用得稍晚一些 。 比如说在印度尼西亚 , 退休人员需要做身份认证才能领取养老金 。 在没有声纹认证系统的时候 , 这些老人家需要亲自去银行或者当地柜台领取养老金 。 应用声纹识别以后 , 老人家们不需要到现场了 , 可以通过远程打电话的方式来做身份认证 。 通过电话确认老人家们还生存着 , 没有去世 , 而且是他本人 , 政府就会给他发养老金 。
南都:声纹识别系统如何识别特定个人?
张伟彬:有一句话是有多少人工智能就是有多少人工 , 目前几乎所有的人工智能都采用监督学习的方式 , 就是通过人工的标注来帮助机器进行学习 。 比如说 , 我给系统两条音频 , 这两条音频可能内容是完全一样的 , 也可能不一样 , 然后告诉它这两条音频都是同一个人的 , 它就会学习如何鉴定不同人的声音 。
南都:研发声纹系统的过程中 , 遇到比较大的困难是什么?
张伟彬:首先是短语音的声纹识别 , 以App登录为例 , 系统要通过用户说的八个数字来验证用户的身份 , 其实录下来的语音是非常短的 , 大概只有两到三秒 , 这个技术其实是挺难的 。
另外一个是跨信道的声纹比对 。 所谓跨信道 , 就是比如说用户在登录App时 , 是用手机录音注册声纹 , 而后续验证身份的时候 , 是银行客服人员通过电话进行验证 , 这两个信道其实是不太一样的 , 声音质量差别也挺大 。 类比图像分辨率来说 , 如果说通过手机录音收集的声音是一张高清的图片 , 那通过电话收集的声音就是只有手机一半甚至更低分辨率的照片 , 就会丢失一些声音的特征 , 所以识别率就会差一些 , 我们也是希望通过技术手段去弥补这些缺陷 。
南都:现阶段声纹识别系统的准确率能达到多少?
张伟彬:如果只涉及App的注册和验证 , 我们现在可以达到99.7%的准确率 , 如果说是电话信道识别准确率 , 相对效果会差一些 , 达到99% 。
AI合成技术难以破解声纹认证 , 声纹支付可能并不遥远
南都:人脸识别可能会被照片、3D模型等破解 , 那声纹识别有没有可能被AI合成语音、播放录音等方式破解?
张伟彬:声音跟人脸不一样的地方在于 , 声音是有内容的 , 而且是可变的 。 人脸的话 , 我们可能一辈子就是长这个样子 , 没法变 。 以App登录为例 , 用户需要念八个验证数字 , 这个数字每次都是随机出现的 , 系统会验证用户念得对不对 , 如果不对的话 , 就不需要做声纹比对了 。
其次 , 当客服人员通过电话跟客户对话的时候 , 如果对方是语音合成的声音 , 那不要说机器 , 人也是一听就能听出来 。 比如说 , 现在有的导航软件会使用郭德纲、林志玲的声音 , 但是我们一听就知道不是本人说的 , 因为我们正常人说话的时候 , 声音是有抑扬顿挫的 , 有起伏的 ,
但受限于现在的技术 , 语音合成出来的声音 , 都是平平稳稳的、比较僵硬的 。
如果声音是用设备播放出来的 , 这种时候可能人听不出来太大的区别 , 但是机器它会更加敏感 。 因为像我们人在说话的时候 , 声音频谱的高频部分其实是不太丰富的 , 但是喇叭播放出来的话 , 它的高频部分是比较异常的 。 而且声音在录制和播放的过程中 , 也是会有损耗的 , 这样的声音百分之百通过不了我们系统认证的 。
南都:和人脸一样 , 声音也是人具有唯一性的生物特征 , 那么如何保障用户声纹数据的安全?
张伟彬:声音相对人脸来说 , 我觉得公众对它的隐私担忧会低一点 。 比如对于我来说 , 在我家里放一个音箱 , 我觉得可以接受 , 但是如果放一个带摄像头的音箱 , 我就会觉得非常惶恐 。


推荐阅读