腾讯研究院关于“深度合成”技术的十个误解( 二 )


误解4:快速立法是应对深度合成技术滥用风险的唯一有效方式 。
在新技术的治理与风险防范方面 , 法律规制一直是必不可少的手段 , 但由于很难识别深度合成内容的来源 , 立法可能起不到应有的效果 , 还可能阻碍技术的有益应用与正向发展 。 因此 , 立法和监管应当包容审慎 , 把握合理的限度 , 避免因矫枉过正而挫伤技术的发展应用从而影响技术的社会经济价值的发挥 。 更进一步而言 , 可通过多方参与、风险评估、成本效益分析等机制 , 确保立法和监管的科学化、精细化、灵活化 , 并可考虑设立“安全港”规则或者监管例外来鼓励AI应用 。 当然 , 立法并非唯一有效的方式 , 而且具有滞后性 , 难以跟上技术发展演变的步伐 , 尤其是对于仍在快速发展的深度合成技术而言;更为合理的路径是 , 借助鉴别技术、溯源技术等技术措施 , 要求制作者对深度合成内容进行标记的源头治理 , 行业公约、标准、最佳实践、伦理指南等行业自律措施 , 以及公众教育和数字素养的培养等更为敏捷灵活的治理措施 , 来实现多元治理 。
误解5:深度合成内容无法通过技术工具鉴别 , 只能通过生物特征测试(例如“眨眼测试”) 。
实际上 , 眨眼测试等根据生物特征进行鉴别的方式 , 是非常低效、不可靠的 , 只能阶段性地起作用 , 而且随着深度合成技术的发展进化 , 生物特征测试越来越难以发挥作用 。 相反 , 深度合成内容的检测识别 , 需要基于AI的鉴别技术 , 来实现对深度合成内容的自动化检测 。 目前 , 随着深度合成技术的进化 , 学界和业界已在大量投入和支持鉴别技术的开发 , 但目前的鉴别网络多针对特定的深度合成方法 , 尚没有通用的鉴别网络 , 因此AI检测工具需要随时更新 。 在国内 , 腾讯优图实验室也在构建人脸合成检测平台——“FaceIn人脸防伪” , 并在腾讯云上发布“换脸甄别ATDF”产品 , 支持对多种换脸方法进行检测 , 达到了很高的准确率 。
误解6:深度合成就是“深度伪造”(deepfake) 。
国内媒体一般根据“deepfake”这一合成词 , 将其背后的技术翻译为“深度伪造” , 但“深度伪造”是以偏概全 , 不足以涵盖所有的深度合成技术和相应的合成内容 。 追根溯源 , deepfake最初只用于描述AI换脸的色情视频 , 是一种特定的AI换脸技术 , 后来被媒体拿来泛指所有的深度合成技术 , 是以偏概全 , 既不专业 , 也不科学 。 因为“深度合成”的内涵更为广泛 , 意指借助人工智能算法实现语音、音乐、图像、人脸、视频等内容的合成和自动生成 , 而以“深度伪造”为代表的AI换脸只是其中的一种应用形式而已 。 此外 , “深度伪造”这一不甚科学的术语容易给相应的AI技术造成污名化影响 , 可能扼杀技术的潜在社会福利 , 不利于技术发展应用 , 因为deepfake背后的AI技术具有很大的正向应用价值 , 如新华社的AI合成主播、网络上的虚拟歌手、社交媒体中的换脸应用等 。 因此 , 虽然deepfake的出现让背后的AI技术获得了广泛的关注 , 但基于技术使用的意图(即deepfake)去定义技术 , 强调技术的潜在欺骗性或可能带来的负面影响 , 这一做法并不科学 。 基于以上考虑 , “深度伪造”(deepfake)这一用语实际上并未得到技术社区的广泛认可;相反 , 使用“深度合成”(deep synthesis)来描述相关的AI技术和合成内容 , 更为科学合理 。
误解7:深度合成是人工智能技术作恶 , 只会给社会的带来负面影响 , 没有正向价值 。
具备高度仿真能力的深度合成技术 , 虽然也存在被滥用的风险 , 但其巨大的正向应用价值将持续带来社会福利 , 正被广泛应用于影视、娱乐、教育、医疗、社交、电商、内容营销、艺术创作、科研等诸多领域 。 随着过去几年的发展成熟 , 深度合成技术在2020年迎来商业化元年 , 大规模商用成为可能 , 未来几年将持续涌现创新性的应用形式 。 例如 , 在影视作品的后期制作方面 , 深度合成技术已被用于“数字复活”演员或演员的声音 , 或者实现多种语言的“数字配音” 。 亦开始大量涌现AI主播、虚拟歌手、AI换脸、数字虚拟人等社交与内容类应用 。 在电商领域 , 深度合成技术可以将用户的脸部换到短的视频片段中 , 从而让用户在购买前可以实现“数字试穿” 。 在广告宣传、内容营销等领域 , AI合成的人脸和虚拟形象可以替代网红、模特等 , 既能带来新鲜感 , 也免去了传统上使用他人肖像的授权 。 在医疗领域 , 深度合成技术可以让有失声风险的患者重新获得“自己的声音” , 也可以生成与真实影像无异的医学图像来训练AI系统 , 解决数据不足、病人隐私保护等问题 。 在语音合成方面 , 腾讯云上线的语音合成以及实时语音合成技术 , 可以将任意文本转化为语音 , 用于新闻、车载导航等个性化语音播报、有声读物制作、机器人发声等 。 总之 , 深度合成并非关于“伪造”和“欺骗”的技术 , 而是极富创造力和突破性的技术 , 虽然它像其他任何技术一样 , 也催生了一系列必须面对的难题 , 但这并不会磨灭这一技术给社会带来的进步 。


推荐阅读