|FastSpeech语音合成系统技术升级,微软联合浙大提出FastSpeech2


|FastSpeech语音合成系统技术升级,微软联合浙大提出FastSpeech2
本文插图
|FastSpeech语音合成系统技术升级,微软联合浙大提出FastSpeech2
本文插图

来源 | 微软研究院AI头条(ID: MSRAsia)
编者按:基于深度学习的端到端语音合成技术进展显著 , 但经典自回归模型存在生成速度慢、稳定性和可控性差的问题 。 去年 , 微软亚洲研究院和微软 Azure 语音团队联合浙江大学提出了快速、鲁棒、可控的语音合成系统 FastSpeech , 近日研究团队又将该技术升级 , 提出了 FastSpeech 2 和 FastSpeech 2s , 在提升语音合成质量的同时 , 大大简化了训练流程 , 减少了训练时间 , 加快了合成速度 。
近年来 , 以 FastSpeech 为代表的非自回归语音合成(Text to Speech, TTS)模型相比传统的自回归模型(如 Tacotron 2)能极大提升合成速度 , 提升语音鲁棒性(减少重复吐词、漏词等问题)与可控性(控制速率和韵律) , 同时达到相匹配的语音合成质量 。 但是 , FastSpeech 还面临以下几点问题:

  • FastSpeech 依赖 Teacher-Student 的知识蒸馏框架 , 训练流程比较复杂;
  • 由于知识蒸馏 , FastSpeech 的训练目标相比真实语音存在信息损失 , 同时从 Teacher 模型获得的时长(Duration)信息不够准确 , 两者都会影响合成语音质量 。
为了解决上述问题 , 微软亚洲研究院和微软 Azure 语音团队联合浙江大学提出了FastSpeech 的改进版 FastSpeech 2 , 它抛弃了 Teacher-Student 知识蒸馏框架降低训练复杂度 , 直接用真实的语音数据作为训练目标避免信息损失 , 同时引入了更精确的时长信息和语音中的其它可变信息(包括音高(Pitch)和音量(Energy)等)来提高合成的语音质量 。 基于 FastSpeech 2 , 我们还提出了加强版 FastSpeech 2s 以支持完全端到端的从文本到语音波形的合成 , 省略了梅尔频谱的生成过程 。 实验结果表明 , FastSpeech 2 和 2s 在语音质量方面优于 FastSpeech , 同时大大简化了训练流程减少了训练时间 , 还加快了合成的速度 。
FastSpeech 2 和 2s 的样例音频网址已经公开在:
https://speechresearch.github.io/fastspeech2/
论文公开在:https://arxiv.org/pdf/2006.04558.pdf
|FastSpeech语音合成系统技术升级,微软联合浙大提出FastSpeech2
本文插图

模型框架
|FastSpeech语音合成系统技术升级,微软联合浙大提出FastSpeech2
本文插图

图1:FastSpeech 2 和 2s 模型框架 。 图1(b)中的 LR 表示 FastSpeech 中的序列长度适配操作 , 图1(c)中的 LN 表示层归一化 , 可变信息预测器(variance predictor)包括时长、音高和能量预测器 。
主架构
FastSpeech 2 的模型架构如图1(a)所示 , 它沿用 FastSpeech 中提出的 Feed-Forward Transformer(FFT)架构 , 但在音素编码器和梅尔频谱解码器中加入了一个可变信息适配器(Variance Adaptor) , 从而支持在 FastSpeech 2 和 2s 中引入更多语音中变化的信息 , 例如时长、音高、音量(频谱能量)等 , 来解决语音合成中的一对多映射问题(文本到语音合成中 , 一条文本可以对应到多条可变的语音 , 这些可变信息包括语音时长、音高、音量等 。 FastSpeech 通过知识蒸馏降低语音训练目标的变化性来缓解一对多映射问题 , 但也造成了训练目标的信息损失 。 FastSpeech 2 通过引入对应的可变信息作为解码器输入 , 使输入输出信息尽量匹配 , 来解决这个问题) 。
可变信息适配器(Variance Adaptor)
可变信息适配器如图1(b)所示 , 包含了多种可变信息的预测器 。 在本工作中引入了时长预测器、音高预测器和能量预测器 。 在训练时 , 模型直接使用可变信息的真实值 , 与编码器的输出融合 , 作为解码器的输入 , 同时训练预测器使其拟合真实的可变信息 。 在推理阶段 , 模型使用预测器预测的可变信息 。


推荐阅读