中年中国科学技术大学副教授凌震华:基于表征解耦的非平行语料话者转换 | CCF-GAIR 2020( 四 )


本文插图
在VCC2018评测结果中 , 我们提交的参测系统在两个任务上均取得了转换语音自然度与相似度指标的第一名 , 其中自然度平均意见分(MOS)达到 4 分 , 相似度达到 80% 以上 。
最后我再介绍一下我们近期开展的基于序列到序列模型框架的非平行语音转换方法的研究工作 。 虽然前面介绍的VCC2018方法可以取得较好的非平行语音转换效果 , 但是其仍存在一些不足 。 例如 , 基于语音识别器提取的文本内容表征中难以保证不含有说话人相关信息、语音识别模型和转换生成模型没有联合训练、仍采用帧到帧映射的模型框架等 。
因此 , 我们提出了一种基于表征解耦的序列到序列非平行语音转换方法 。 该方法在序列到序列建模框架下 , 可以实现对于语音中文本相关内容和话者相关内容的有效分离 。 其核心思想如图所示 。 在训练阶段 , 利用识别编码器和话者编码器分别提取语音中的文本和话者相关表征 。 同时我们通过训练准则的设计保证这两种表征相互独立 , 不会纠缠 。 在训练过程中 , 我们也会利用语音对应的转写文本 。 从转写文本中提取的信息可以为从语音中提取文本表征提供有效参考 。 在合成阶段 , 通过组合从源说话人语音中提取的文本表征 , 以及目标说话人的话者表征 , 可以实现从源说话人语音到目标说话人语音的转换 。
中年中国科学技术大学副教授凌震华:基于表征解耦的非平行语料话者转换 | CCF-GAIR 2020
本文插图
整个的模型结构如下图所示 , 由文本编码器、识别编码器、话者编码器、辅助分类器、解码器共5个主要模块构成 。 其中识别编码器和解码器类似与语音识别与语音合成模型 , 均采用结合注意力机制的编码器-解码器结构 。 文本编码器用于从转写文本中提取文本表征 。 解码器可以接收来自识别编码器或者文本编码器的输出 , 结合话者编码器给出的话者表征 , 进行声学特征的重构 。 辅助分类器用于实现与识别编码器的对抗学习 , 以保证识别编码器提取的文本表征中不含有说话人相关信息 。 由于时间原因 , 各模块具体的模型结构不再一一展开介绍 。
中年中国科学技术大学副教授凌震华:基于表征解耦的非平行语料话者转换 | CCF-GAIR 2020
本文插图
以上各模块在训练阶段联合优化 。 为了实现有效的表征解耦 , 我们共设计了7种损失函数用于指导模型参数更新 , 包括音素分类损失、话者表征损失、对比损失、对抗训练损失、重构损失等 。
中年中国科学技术大学副教授凌震华:基于表征解耦的非平行语料话者转换 | CCF-GAIR 2020
本文插图
以下是一些实验结果 。 从客观评测结果中可以看出 , 对比CycleGAN和VCC2018两种非平行语音转换方法 , 我们提出的方法可以取得最优的梅尔倒谱失真(MCD)以及清浊判决错误(VUV) 。 在转换时长误差(DDUR)上 , 所提方法由于采用了序列到序列建模框架 , 也显著优于其他两种方法 。 在主观评测中 , 我们所提出的非平行语音转换方法 , 也取得了接近序列到序列平行语音转换的性能 。
中年中国科学技术大学副教授凌震华:基于表征解耦的非平行语料话者转换 | CCF-GAIR 2020
本文插图
总结报告内容 , 序列到序列话者转换方法在时长调整、长时相关性建模等方面有其优势 , 但是将该方法从平行数据条件推广到非平行数据条件存在挑战 。 特征解耦是解决这一问题的有效途径 , 通过序列到序列框架下的模型结构与损失函数设计可以获取相对独立的文本与话者表征 , 进一步实现非平行数据条件下的高质量语音转换 。
中年中国科学技术大学副教授凌震华:基于表征解耦的非平行语料话者转换 | CCF-GAIR 2020
本文插图
另一方面 , 现阶段的话者转换技术还面临一些挑战 , 包括跨语种转换、低质数据场景、可控转换、实时转换等 , 这些都是后续值得进一步深入研究的内容 。


推荐阅读