一通来自AI的电话，骗走180亿元 _AI

「AI」是2023年开年来最热门的话题，当人们为人工智能的崛起而感到兴奋之时，一场危机也随之而来。
在过去几个月时间里，我们见识到了「AI问答」、「AI制图」和「AI换脸」，每一项技术的曝光，都引起不小的讨论。在设想「AI」成为我们的得力助手之前，这些工具已经率先成了不法之徒的「好伙伴」。
全球最大的专业安全技术公司McAfee不久前公开了一项调查数据，在受到电话诈骗的人群中，有超过77%的受害者被「AI语音」所欺骗。这些受害者难以辨别来电中的声音是否来自家人、朋友，于是，在陌生来电的请求下，向不法分子打去一笔又一笔钱款。
利用「AI」，人们可以轻松地克隆任何人的声音，除了行骗之外，还可能出现在任何场合、任何地点，乃至于网友们普遍认为，「AI语音」迟早会出现在法庭上，成为伪证的主要来源。
这听起来十分吓人，对吧？
声音是假的，诈骗是真的
经常在网上冲浪的朋友，近期一定在不同的社交平台中看到利用「AI」创作的歌曲，例如：
「AI孙燕姿《发如雪》Cover From周杰伦」
「AI霉霉《反方向的钟》Cover From周杰伦」
「AI周杰伦《普通朋友》Cover From陶喆」
这些利用「AI」创作的歌曲，成为网友们热捧的二次创作。

文章插图
【一通来自AI的电话，骗走180亿元】（图源：bilibili）
事实上，「AI」创作歌曲和「AI语音」诈骗案，手法是一样的。创作者通过某些工具，将语音素材导入其中，以高性能显卡进行训练，不需要花费太多时间，即可轻易地获得一段“以假乱真”的音频内容。
用「AI」创作歌曲，还需要调整音调，使这些音频与原曲的节奏、音高保持一致。当然，在最新版本的创作工具中，已经可以做到“一键处理”，效果不会太差。而「AI语音」的难点在于处理情绪，除了调整仿真音频的节奏之外，还需要加上因不同情绪而产生的内容变化。

文章插图
（图源：Veer）
在McAfee提到的两个真实案例中，一位母亲接到诈骗团伙拨来的绑架电话，在电话那头，她的女儿正声嘶力竭地呼救。不仅声音相似，就连情绪也十分到位，这正是受害者“上钩”的重要原因。
今年3月，一款名为“Mocking Bird”的AI工具诞生，据开发者介绍，它能在电话、视频中提取人声，以AI算法进行模拟匹配，最后根据分析出来的内容，“拼凑”你所需要的语音内容。经网友实测，这款工具确实可以制作出「AI语音」，但要求并不算低。
制作「AI语音」，需要足量样本，最好是清晰的人声，因此想要在一通电话就提取到足够的声音素材，还是比较艰难的。不过，利用「AI语音」诈骗，或许并不需要逼真的声音。
「AI」能诈骗，未必全靠「科技与狠活」
当每个人都能轻而易举地「克隆」他人的声音，这个世界不就乱套了吗？「AI语音」，真的做到人人都能随手创作了吗？
为了了解「AI语音」现阶段的真实情况，我采访了一位在该领域比较资深的创作者明治老师，听听他对「AI语音」的看法。
小雷：明治老师，看您在「AI」领域的研究颇为深入，您如何看待「AI语音」诈骗案？
明治：目前来说，光靠一通电话、一段视频就能提取出足够用于语言训练的素材，难度很大，从被报道出来的案例看，大多数被骗的用户在当时是处于紧张的状态中，因为不知道对方是不是真的，大脑自动匹配想象对象的声音，这也是有可能的。
小雷：也就是说，现阶段还不能单纯依靠「AI」制作足以以假乱真的语音吗？
明治：我们看到网络上有很多AI翻唱的内容，还有很多主播整活的语音音频，但你有没有发现，这些二创内容都有一个共同点——“样本足量” 。就像孙燕姿这类歌手，她能不断被作为AI创作对象，正是因为她有足够的声音素材。即便有了足量的声音素材，对硬件也有很高的要求，即便是最好的消费级显卡4090Ti，模型生成也需要耗费很多时间。
小雷：假如说，只用一段音频作为素材去制作「AI语音」，能实现以假乱真吗？
明治：上面也说过了，声音样本不够，是很难做出所谓的「AI语音」内容的，就算强行制作，得到的成果质量也不会很高。“以假乱真”，其实有很多判定标准，例如童声，大多数童声听起来都是差不多的，尤其是在电话中，不太清晰的语音加上比较普遍的声线，混淆视听也不足为奇。