|FastSpeech语音合成系统技术升级,微软联合浙大提出FastSpeech2( 三 )


|FastSpeech语音合成系统技术升级,微软联合浙大提出FastSpeech2
本文插图

图2:音高调节实验 。 红色曲线代表修改后的基频曲线 。 对应的文本是:“They discarded this for a more completely Roman and far less beautiful letter.”
消融对比实验
我们也比较了模型中一些重要组件和方法(包括引入音高、能量和更准确的时长信息)对生成音质效果的影响 , 通过 CMOS 的结果来衡量影响程度 。 由表3和表4可以看出 , 这些组件和方法确实有助于模型效果的提高 。
|FastSpeech语音合成系统技术升级,微软联合浙大提出FastSpeech2
本文插图

表3:从 Teacher 模型和 MFA 得到的 Duration 对比
|FastSpeech语音合成系统技术升级,微软联合浙大提出FastSpeech2
本文插图

表4:消融实验
|FastSpeech语音合成系统技术升级,微软联合浙大提出FastSpeech2
本文插图

未来工作
未来 , 我们将在 FastSpeech 2 中尝试引入更多的可变信息来提高并行语音合成的音质 , 并且尝试更加轻量的模型 , 从而进一步提升生成语音的速度 。
我们一直致力于语音方面的研究 , 包括文本到语音合成、低资源语音合成与识别、语音翻译、歌声及音乐合成等 。 欢迎关注我们语音方面的研究工作:https://speechresearch.github.io/
论文链接:
[1] FastSpeech: Fast, Robust and Controllable Text to Speech
paper: https://arxiv.org/pdf/1905.09263.pdf
demo: https://speechresearch.github.io/fastspeech/
article (Chinese): https://mp.weixin.qq.com/s/aHupAjPNFdUdaG9Uof_obQ
article (English): https://www.microsoft.com/en-us/research/blog/fastspeech-new-text-to-speech-model-improves-on-speed-accuracy-and-controllability/
[2] FastSpeech 2: Fast and High-Quality End-to-End Text to Speech
paper: https://arxiv.org/pdf/2006.04558.pdf
demo: https://speechresearch.github.io/fastspeech2/
本文作者:任意、胡晨旭、谭旭、秦涛、赵晟、赵洲、刘铁岩
|FastSpeech语音合成系统技术升级,微软联合浙大提出FastSpeech2
本文插图


推荐阅读