名侦探柯南同款变声器 蝴蝶结变声器

弓变声器(名为侦察柯南变声器)
编者按:智慧展示未来,洞察新知 。中国科学院之声与中国科学院主动研究研究院联合开设科普专栏《智慧·智慧·语言》,为您介绍人工智能的相关知识和故事 。从最新的成果到背后的趣闻轶事,我们将向您展示人工智能如何唤醒一切,让世界变得更美好 。
在《名侦探柯南》中,最令人羡慕的黑科技是阿笠博士制造的弓式变声器 。为了隐藏自己的身份,柯南会用变声器模拟毛利小五郎等人的声音来隐藏自己的身份 。有了这个变声器,你可以把声音变成任何人的声音 。
要实现变声器的变声效果,可以使用语音转换技巧 。语音转换,广义地说,是指对语音个体特征的修正,目标是修正语音信号的一个或多个特征,同时保留语音中的语言内容信息;狭义上是指将源说话人的声音转换为具有目标说话人发音特征的声音 。

名侦探柯南同款变声器 蝴蝶结变声器

文章插图
语音转换系统基本框架图
语音转换研究算法包括训练模块和转换模块 。
训练模块包括特征分析、特征对齐、模型训练和转换功能 。特征对齐模块用于建立两个说话人语音特征之间的映射规则 。一些语音转换请求在源语音和目标语音之间具有相同的语音文本内容 。在建立训练语音转换模型之前,由于说话人发音速度的差异,需要对提取的说话人语音特征进行时间标准对齐 。常用的方法包括基于隐马尔可夫模型的动态时间扭曲和强制对齐算法,而有些语音转换系统不需要并行语料库,这种情况需要其他特殊处理 。
语音转换模型可以通过估计一个或一组映射函数来建立源语音和目标语音的声学特性之间的映射关系,以最小化转换后的特性和目标特性之间的误差 。常用的语音转换模型包括码本映射、高斯混合模型、隐马尔可夫模型和人工神经网络 。
【名侦探柯南同款变声器 蝴蝶结变声器】一个完整的语音转换系统应该解决以下三个问题:语音信号中有哪些语音特征可以代表说话人的信息,如何估计这些语音特征?如何建立源语者和目标语者语音特征之间的对应规则?如何从转换后的语音特征中合成转换后的语音信号?
第一个问题是指在语音转换中需要区分的语音内容、说话人的性格特征和语音背景信息三个方面 。说话人的个性是言语转换的重点 。
第二个问题是,如果根据目标说话人在语音信息三个方面的个性特征建立源与目的的对应关系,就可以排除另外两个方面的干扰 。一般来说,假设语音背景信息相同或一致,那么重要的干扰信息来自于语音内容信息 。这正是数据对齐的目的 。它是语音转换中非常重要的模块,将直接影响语音转换的结果 。
第三个问题可以通过模型训练模块和转换模块来解决,这也是当今语音转换中比较成熟的技巧 。
语音转换技巧的使用非常普遍,例如:
个性化语音合成系统:在语音合成系统中,单词直接合成语音,合成的新语音个性单一,听起来像生硬的机器语言,不自然 。如果使用语音合成系统生成语音,则使用语音转换系统对语音进行作用,或者先将合成单元通过语音转换系统,然后进行语音合成,进而得到具有特定说话人个性特征的合成语音 。语音转换研究涉及大量说话人个性特征的分析和建模,其研究成果对情感、个性化语音等特征语音的分析和生成具有重要意义,可以弥补单一语音合成系统的不足,使合成的语音具有丰富的个性化特征,进而得到听觉效果更好的语音 。
名侦探柯南同款变声器 蝴蝶结变声器

文章插图
个性化语音合成系统
语音翻译系统:语音翻译系统是将一种语言的发音翻译成另一种语言的发音,同时坚持说话人的身份和说话风格 。首先通过语音识别将系统转换成单词,然后通过机器翻译转换成另一种语言,最后通过语音合成系统和跨语言语音转换系统合成翻译后的句子 。
名侦探柯南同款变声器 蝴蝶结变声器

文章插图
语音翻译系统
说话人语音认证系统:语音转换系统是将语音转换为特定用途的说话人风格的系统,犯罪分子可以通过语音转换系统编造语音数据,说话人认证系统是一种识别真实说话人的系统 。
改变说话人身份:可以使用语音转换技术来掩盖主要人物的身份,也可以用于配音 。
名侦探柯南同款变声器 蝴蝶结变声器

文章插图
把……戏称为;给……起绰号


推荐阅读