|FastSpeech语音合成系统技术升级，微软联合浙大提出FastSpeech2

本文插图

本文插图

来源 | 微软研究院AI头条（ID: MSRAsia）
编者按：基于深度学习的端到端语音合成技术进展显著，但经典自回归模型存在生成速度慢、稳定性和可控性差的问题。去年，微软亚洲研究院和微软 Azure 语音团队联合浙江大学提出了快速、鲁棒、可控的语音合成系统 FastSpeech ，近日研究团队又将该技术升级，提出了 FastSpeech 2 和 FastSpeech 2s ，在提升语音合成质量的同时，大大简化了训练流程，减少了训练时间，加快了合成速度。
近年来，以 FastSpeech 为代表的非自回归语音合成（Text to Speech, TTS）模型相比传统的自回归模型（如 Tacotron 2）能极大提升合成速度，提升语音鲁棒性（减少重复吐词、漏词等问题）与可控性（控制速率和韵律），同时达到相匹配的语音合成质量。但是， FastSpeech 还面临以下几点问题：

FastSpeech 依赖 Teacher-Student 的知识蒸馏框架，训练流程比较复杂；
由于知识蒸馏， FastSpeech 的训练目标相比真实语音存在信息损失，同时从 Teacher 模型获得的时长（Duration）信息不够准确，两者都会影响合成语音质量。

为了解决上述问题，微软亚洲研究院和微软 Azure 语音团队联合浙江大学提出了FastSpeech 的改进版 FastSpeech 2 ，它抛弃了 Teacher-Student 知识蒸馏框架降低训练复杂度，直接用真实的语音数据作为训练目标避免信息损失，同时引入了更精确的时长信息和语音中的其它可变信息（包括音高（Pitch）和音量（Energy）等）来提高合成的语音质量。基于 FastSpeech 2 ，我们还提出了加强版 FastSpeech 2s 以支持完全端到端的从文本到语音波形的合成，省略了梅尔频谱的生成过程。实验结果表明， FastSpeech 2 和 2s 在语音质量方面优于 FastSpeech ，同时大大简化了训练流程减少了训练时间，还加快了合成的速度。
FastSpeech 2 和 2s 的样例音频网址已经公开在：
https://speechresearch.github.io/fastspeech2/
论文公开在：https://arxiv.org/pdf/2006.04558.pdf

|FastSpeech语音合成系统技术升级，微软联合浙大提出FastSpeech2

本文插图

模型框架

本文插图

图1：FastSpeech 2 和 2s 模型框架。图1（b）中的 LR 表示 FastSpeech 中的序列长度适配操作，图1（c）中的 LN 表示层归一化，可变信息预测器（variance predictor）包括时长、音高和能量预测器。
主架构
FastSpeech 2 的模型架构如图1（a）所示，它沿用 FastSpeech 中提出的 Feed-Forward Transformer（FFT）架构，但在音素编码器和梅尔频谱解码器中加入了一个可变信息适配器（Variance Adaptor），从而支持在 FastSpeech 2 和 2s 中引入更多语音中变化的信息，例如时长、音高、音量（频谱能量）等，来解决语音合成中的一对多映射问题（文本到语音合成中，一条文本可以对应到多条可变的语音，这些可变信息包括语音时长、音高、音量等。 FastSpeech 通过知识蒸馏降低语音训练目标的变化性来缓解一对多映射问题，但也造成了训练目标的信息损失。 FastSpeech 2 通过引入对应的可变信息作为解码器输入，使输入输出信息尽量匹配，来解决这个问题）。
可变信息适配器（Variance Adaptor）
可变信息适配器如图1（b）所示，包含了多种可变信息的预测器。在本工作中引入了时长预测器、音高预测器和能量预测器。在训练时，模型直接使用可变信息的真实值，与编码器的输出融合，作为解码器的输入，同时训练预测器使其拟合真实的可变信息。在推理阶段，模型使用预测器预测的可变信息。