一通来自AI的电话,骗走180亿元

「AI」是2023年开年来最热门的话题,当人们为人工智能的崛起而感到兴奋之时,一场危机也随之而来 。
在过去几个月时间里,我们见识到了「AI问答」、「AI制图」和「AI换脸」,每一项技术的曝光,都引起不小的讨论 。在设想「AI」成为我们的得力助手之前,这些工具已经率先成了不法之徒的「好伙伴」 。
全球最大的专业安全技术公司McAfee不久前公开了一项调查数据,在受到电话诈骗的人群中,有超过77%的受害者被「AI语音」所欺骗 。这些受害者难以辨别来电中的声音是否来自家人、朋友,于是,在陌生来电的请求下,向不法分子打去一笔又一笔钱款 。
利用「AI」,人们可以轻松地克隆任何人的声音,除了行骗之外,还可能出现在任何场合、任何地点,乃至于网友们普遍认为,「AI语音」迟早会出现在法庭上,成为伪证的主要来源 。
这听起来十分吓人,对吧?
声音是假的,诈骗是真的
经常在网上冲浪的朋友,近期一定在不同的社交平台中看到利用「AI」创作的歌曲,例如:
「AI孙燕姿《发如雪》Cover From周杰伦」
「AI霉霉《反方向的钟》Cover From周杰伦」
「AI周杰伦《普通朋友》Cover From陶喆」
这些利用「AI」创作的歌曲,成为网友们热捧的二次创作 。

一通来自AI的电话,骗走180亿元

文章插图
【一通来自AI的电话,骗走180亿元】(图源:bilibili)
事实上,「AI」创作歌曲和「AI语音」诈骗案,手法是一样的 。创作者通过某些工具,将语音素材导入其中,以高性能显卡进行训练,不需要花费太多时间,即可轻易地获得一段“以假乱真”的音频内容 。
用「AI」创作歌曲,还需要调整音调,使这些音频与原曲的节奏、音高保持一致 。当然,在最新版本的创作工具中,已经可以做到“一键处理”,效果不会太差 。而「AI语音」的难点在于处理情绪,除了调整仿真音频的节奏之外,还需要加上因不同情绪而产生的内容变化 。
一通来自AI的电话,骗走180亿元

文章插图
(图源:Veer)
在McAfee提到的两个真实案例中,一位母亲接到诈骗团伙拨来的绑架电话,在电话那头,她的女儿正声嘶力竭地呼救 。不仅声音相似,就连情绪也十分到位,这正是受害者“上钩”的重要原因 。
今年3月,一款名为“Mocking Bird”的AI工具诞生,据开发者介绍,它能在电话、视频中提取人声,以AI算法进行模拟匹配,最后根据分析出来的内容,“拼凑”你所需要的语音内容 。经网友实测,这款工具确实可以制作出「AI语音」,但要求并不算低 。
制作「AI语音」,需要足量样本,最好是清晰的人声,因此想要在一通电话就提取到足够的声音素材,还是比较艰难的 。不过,利用「AI语音」诈骗,或许并不需要逼真的声音 。
「AI」能诈骗,未必全靠「科技与狠活」
当每个人都能轻而易举地「克隆」他人的声音,这个世界不就乱套了吗?「AI语音」,真的做到人人都能随手创作了吗?
为了了解「AI语音」现阶段的真实情况,我采访了一位在该领域比较资深的创作者明治老师,听听他对「AI语音」的看法 。
小雷:明治老师,看您在「AI」领域的研究颇为深入,您如何看待「AI语音」诈骗案?
明治:目前来说,光靠一通电话、一段视频就能提取出足够用于语言训练的素材,难度很大,从被报道出来的案例看,大多数被骗的用户在当时是处于紧张的状态中,因为不知道对方是不是真的,大脑自动匹配想象对象的声音,这也是有可能的 。
小雷:也就是说,现阶段还不能单纯依靠「AI」制作足以以假乱真的语音吗?
明治:我们看到网络上有很多AI翻唱的内容,还有很多主播整活的语音音频,但你有没有发现,这些二创内容都有一个共同点——“样本足量” 。就像孙燕姿这类歌手,她能不断被作为AI创作对象,正是因为她有足够的声音素材 。即便有了足量的声音素材,对硬件也有很高的要求,即便是最好的消费级显卡4090Ti,模型生成也需要耗费很多时间 。
小雷:假如说,只用一段音频作为素材去制作「AI语音」,能实现以假乱真吗?
明治:上面也说过了,声音样本不够,是很难做出所谓的「AI语音」内容的,就算强行制作,得到的成果质量也不会很高 。“以假乱真”,其实有很多判定标准,例如童声,大多数童声听起来都是差不多的,尤其是在电话中,不太清晰的语音加上比较普遍的声线,混淆视听也不足为奇 。


推荐阅读