中年中国科学技术大学副教授凌震华:基于表征解耦的非平行语料话者转换 | CCF-GAIR 2020( 二 )
本文插图
我的报告会围绕三个部分进行:
- 话者转换的任务定义;
- 【中年中国科学技术大学副教授凌震华:基于表征解耦的非平行语料话者转换 | CCF-GAIR 2020】平行语料和非平行语料的话者转换方法;
- 基于表征解耦的非平行语料话者转换方法 。
本文插图
类比于计算机视觉领域的人脸替换工作 , 如 Deepfake 等 , 话者转换是对语音信号中的说话人身份信息进行处理 , 其应用领域包括娱乐化应用和个性化的语音合成等 。 同时 , 身份的匿名化、一致化也会使用到话者转换技术 。
话者转换技术经过了从规则方法到统计建模的发展历程 。 现阶段的基于统计建模的话者转换方法 , 其转换过程通常包括三个主要步骤:
源说话人语音输入后 , 首先经过声码器从语音信号中抽取声学特征 , 如梅尔谱、基频等;进一步通过声学模型P(Y|X)进行由源说话人声学特征X到目标说话人声学特征Y的映射;映射得到的声学特征最后通过声码器重构语音信号 。
本文插图
今天我们介绍的内容主要围绕中间的统计声学模型展开 。 在对于话者转换任务的背景介绍后 , 下面着重介绍平行语料和非平行语料条件话者转换任务的区别、主要方法 , 以及我们做过的一些相关工作 。
那么什么是平行语料?
在训练阶段 , 如果源和目标两个说话人朗读过同样的文本 , 就可以得到他们之间的平行语料 。 基于平行语料 , 可以直接建立转换模型描述两个说话人声学特征之间的映射关系 。 在转换阶段 , 输入新的源说话人声音 , 就可以通过转换模型进行目标说话人声学特征的预测 。
本文插图
在深度学习出现之前 , 在平行语料语音转换中 , 最经典的方法是基于高斯混合模型(GMM)的方法 。
其基本的策略是 , 两个说话人录制了平行语料后 , 考虑到两个人的语速、停顿等不一致带来的声学特征序列长度差异 , 需要先利用动态时间规整(DTW)算法进行序列的对齐 , 得到等长的 X 序列和 Y 序列 。 接着 , 将每个时刻的源说话人声学特征与目标说话人声学特征进行拼接 , 进一步训练得到两个发音人声学特征的联合概率模型P(X,Y) 。
本文插图
进一步 , 我们由 P(X,Y) 可以推导出 P(Y|X) 。 在转换的时候我们就可以把源说话人的声学特征X 送到模型中 , 将目标发音人声学特征Y预测出来 。 使用的预测准则包括最小均方误差(MMSE)和最大似然估计(MLE)等 。
不过 , 基于 GMM声学建模的语音转换质量还是不尽如人意 。 一方面转换的音质不够高 , 声音听起来有机械感;二是和目标人的相似度不够好 。 这些都和声学模型的精度不足有关系 。
针对以上问题 , 自2013年开始 , 深度学习被广泛应用与语音转换的各个技术环节 , 如特征表示、声学建模、声码器等 。 今天重点关注的是声学模型 , 即如何更好的建模P(Y|X) 。
本文插图
现在来介绍我们早期所研究的一种基于深度神经网络(DNN)的语音转换方法 , 该方法使用的是逐帧转换的DNN声学模型 。 由于将DNN模型直接用于源说话人声学特征到目标说话人声学特征的映射 , 并基于传统MMSE准则进行模型参数更新 , 所取得的性能提升有限 。 因此 , 我们设计了一种产生式训练方法 , 用于训练语音转换DNN 模型参数 。 其思路是 , 先训练两个受限玻尔兹曼机(RBM)模型 , 将 X 和Y分别映射到相对紧凑、高效的二值表征;然后再建立一个双向联想记忆(BAM)模型 , 描述两个发音人二值表征间的联合概率;最后组合RBM和BAM , 形成 DNN 模型 , 该模型参数不再需要基于MMSE准则的参数更新 。 实验结果表明 , 该模型对比 GMM在主观质量上具有明显优势 。
推荐阅读
- 搜狐新闻|准大学生数码三件套如何选?这些元气好物值得种草
- 大潮网|浙江19岁女大学生肚子一天天隆起!检查结果让她慌了,医生:立即手术
- 新华网·宝藏青年工作室、武汉大学人民医院|久别,重逢!
- 皮肤疾病|19岁女大学生被室友拉去纹眉,没想到,却因此患上白癜风
- 电竞大学|两者差距一目了然,韩跑跑加入AG?与职业选手共同打训练赛
- 上海市科学技术委员会|关于做好制订因公出国(境)培训中期规划的补充通知
- 大学|已被大学录取不去报到想复读, 究竟会有什么影响? 看完终于明白了!
- 西北大学|同样报考西北大学,617分考生被录取,620分考生却被退档!
- 清华大学|清华副校长直言:80%考上清华的高考状元,去哪了?一般人不知道
- 华中科技大学|杯具!超本科线95分,本科有路不走,却梦幻般碰瓷,撞开专科的门