中年中国科学技术大学副教授凌震华：基于表征解耦的非平行语料话者转换 | CCF-GAIR 2020( 三 ) |中国科学技术大学|解耦|

本文插图
不管是前面说到的 GMM 模型还是 DNN 模型，描述的都是帧到帧的映射关系，在模型训练阶段都离不开帧对齐步骤。对齐的过程难免产生一些对齐的误差与不合理的地方，这会影响语音转换的效果。
另外，这样的帧到帧映射模型不能转换时长。而实际情况是有的人说话比较快，有的人说话比较慢，怎么把说话人的语速特点体现出来呢？

本文插图
后来，我们受到序列到序列神经网络在机器翻译、语音识别、语音合成等领域的应用启发，将序列到序列建模引入话者转换，以改善以上问题。我们的策略是利用结合注意力机制的编码器-解码器模型，直接建立输入源说话人声学特征序列与目标发音人声学特征序列之间的转换关系，中间不需要对齐操作，可以实现对于时长的控制和调整。将序列到序列建模用于话者转换任务，面临序列长度较长、数据量有限等困难。因此我们在模型结构设计上也做了一些针对性的考虑。
这是我们设计的模型结构。模型输入除了从源说话人语音中提取的声学特征序列外，还拼接了利用语音识别声学模型提取的文本相关特征，以协助序列对齐。模型输出就是从目标说话人平行语句中提取的声学特征序列。其中输出与输入序列长度并不一致。

本文插图
模型采用结合注意力机制的编码器-解码器结构。为了降低序列长度过长对于建模的影响，我们在编码器中使用了金字塔结构的递归神经网络，以保证对齐效果。
以下是实验结果。图中横坐标是真实目标说话人语音的时长，纵坐标是转换后的语音时长。如果语音转换模型有比较好的时长调整效果，那么数据点应该落在对角线上。图中绿色点所示的是传统逐帧转换方法的结果，从中可以看出源与目标发音人之间显著的语速差异。红色点对应的是所提出的序列到序列语音转换方法，可以看出其取得了良好的时长转换效果。

本文插图
进一步，我们来探讨非平行语料条件下的语音转换。这是一个更有挑战性的任务。由于很多时候我们需要使用已有数据构建话者转换系统，因此非平行数据条件在实际应用中普遍存在。
已有的非平行语料语音转换大体上有两个思路：

基于非平行数据构造平行数据。构造方法包括语音合成、帧挑选等。 CycleGAN神经网络模型也可以归入此类方法。
分离语音中的文本与话者表征。包括利用语音识别器提取音素后验概率(PPG)的方法，以及基于自编码器与变分自编码器的方法等。

中年中国科学技术大学副教授凌震华：基于表征解耦的非平行语料话者转换 | CCF-GAIR 2020

本文插图
以Voice Conversion Challenge 2018 (VCC2018) 国际话者转换评测为例。其包括两个任务，主任务是平行数据条件，辅任务是非平行数据条件。我们针对此次评测，设计实现了基于PPG的语音转换方法。该方法利用语音识别模型从源话者语音中提取瓶颈特征作为话者无关的文本内容表征，同时利用目标说话人数据建立文本内容表征到声学特征的映射模型。由于该映射模型针对每个目标说话人分别建立，因此不需要平行语料就可以实现。