AI语音技术:行善还是作恶?


AI语音技术:行善还是作恶?

文章插图
张田勘
AI语音技术是AI的一个分支,随着AI技术的发展,AI语音技术也在突飞猛进换代升级 。现在,科大讯飞、搜狗等科技公司相继发布了语音合成技术的应用 。通过AI手段,用户可以一秒变声为社会名人或者其他想要模仿的声音 。
AI的这种音色迁移技术可称为变声技术,可以将任何人的声音转换成特定人的声音(Any-to-One) 。与国内的IT公司比较起来,搜狗公司的AI变声功能已经达到实用的阶段 。搜狗CEO王小川在一场大会上进行了展示 。通过手机软件,王小川用AI变声模拟了高晓松和东北妹子的声音,引得现场连连发笑 。
比起AI之前的语音服务,如导航、智能音箱、问题解读等,变声技术是AI语音技术的重要升级,如果说之前的AI语音服务还在追求以什么样的语音,以及如何使AI的语音更像人的声调和音色为用户和公众提供更好的服务,那么现在的AI变声技术则进一步扩大了AI的应用范围,既有可能让AI语音更好为公众服务,也有可能让AI语音步入歧途,成为诈骗的工具 。前者是向善和行善,后者是从恶和行恶 。
AI的变声技术是一种逼真的语音合成技术,它的基础是神经网络和机器学习 。神经网络模拟电信号在人脑神经元之间的传递过程,对输入数据进行处理,从大量样本数据中总结出共同特征,再通过机器学习模拟特定人的声音,达到以假乱真的效果 。显然,这样的变音技术有很多用武之地,凡是可以采用语音或有声服务的地方,都可能获得这类服务和应用,如语音交互、有声读物、新媒体、智能客服、大众娱乐等 。不过,AI变声技术的短板也是显著的,如果有人利用这种技术向任何特定的人打电话以扮演其亲人、朋友、同事、上级的声音,就会让人难以辨别真假 。
不过,与AI变声技术相似的另一种AI语音技术似乎向善的成分大一些,这就是“讲话到面孔”技术,也可称为“闻声识人”技术 。研究人员设计了一种智能软件,把网上搜集的数百万段教学和音像视频中的每个人的面部特征与其讲话的声音特点匹配和相联,形成一种可供计算机学习的大数据,通过深度学习,这种智能软件仅仅通过听一个人的声音就可以画出(显示)其相貌,而且八九不离十,但是,现在这种软件还不成熟 。
“讲话到面孔”的AI语音技术完全可以应用到刑事鉴识中,可以与较早的模拟画像技术一道成为刑事鉴识的补充技术 。模拟画像技术是基于找不到嫌疑人的影视资料、声音和照片,或者是嫌疑人的图像很模糊,只能通过受害人或目击者的口述,由刑侦人员画出嫌疑人的相貌 。2017年6月9日,克里斯滕森杀害中国访问学者章莹颖,在案件侦查之初,美国联邦调查局(FBI)就向擅长模拟画像的中国警官林宇辉发出邀请,请他协助画出嫌犯的画像,而当时能提供的嫌犯图片就来自街边监控摄像头上的模糊截图 。
无论是AI变声技术,还是“讲话到面孔”的AI语音(闻声识人)技术,都是AI语音技术的升级 。技术是中立的,关键在于如何使用这类技术 。在这类技术应用于社会生活和工作之前,制定对其严格管理的措施极为紧迫和必须 。
2019年4月,全国人大常委会审议的《民法典人格权编(草案)》里加了一条规定:任何组织和个人不得以利用信息技术手段伪造的方式侵害他人的肖像权 。同样,如果AI语音技术发展了,也应当加上不得以信息技术手段伪造的方式侵害他人的声音权,同时要单独在人工智能立法中涉及AI合成不得侵犯他人的肖像权、声音权等 。任何未经授权的合成肖像、合成音频均属于侵权违法行为 。
尽管如此,还是需要有一部明确的法律来规范包括语音、肖像等在内的AI新产品和应用,使其只能向善行善,而非向恶行恶 。漫画/陈彬
 

【AI语音技术:行善还是作恶?】


    推荐阅读