|FastSpeech语音合成系统技术升级,微软联合浙大提出FastSpeech2
本文插图
本文插图
来源 | 微软研究院AI头条(ID: MSRAsia)
编者按:基于深度学习的端到端语音合成技术进展显著 , 但经典自回归模型存在生成速度慢、稳定性和可控性差的问题 。 去年 , 微软亚洲研究院和微软 Azure 语音团队联合浙江大学提出了快速、鲁棒、可控的语音合成系统 FastSpeech , 近日研究团队又将该技术升级 , 提出了 FastSpeech 2 和 FastSpeech 2s , 在提升语音合成质量的同时 , 大大简化了训练流程 , 减少了训练时间 , 加快了合成速度 。
近年来 , 以 FastSpeech 为代表的非自回归语音合成(Text to Speech, TTS)模型相比传统的自回归模型(如 Tacotron 2)能极大提升合成速度 , 提升语音鲁棒性(减少重复吐词、漏词等问题)与可控性(控制速率和韵律) , 同时达到相匹配的语音合成质量 。 但是 , FastSpeech 还面临以下几点问题:
- FastSpeech 依赖 Teacher-Student 的知识蒸馏框架 , 训练流程比较复杂;
- 由于知识蒸馏 , FastSpeech 的训练目标相比真实语音存在信息损失 , 同时从 Teacher 模型获得的时长(Duration)信息不够准确 , 两者都会影响合成语音质量 。
FastSpeech 2 和 2s 的样例音频网址已经公开在:
https://speechresearch.github.io/fastspeech2/
论文公开在:https://arxiv.org/pdf/2006.04558.pdf
本文插图
模型框架
本文插图
图1:FastSpeech 2 和 2s 模型框架 。 图1(b)中的 LR 表示 FastSpeech 中的序列长度适配操作 , 图1(c)中的 LN 表示层归一化 , 可变信息预测器(variance predictor)包括时长、音高和能量预测器 。
主架构
FastSpeech 2 的模型架构如图1(a)所示 , 它沿用 FastSpeech 中提出的 Feed-Forward Transformer(FFT)架构 , 但在音素编码器和梅尔频谱解码器中加入了一个可变信息适配器(Variance Adaptor) , 从而支持在 FastSpeech 2 和 2s 中引入更多语音中变化的信息 , 例如时长、音高、音量(频谱能量)等 , 来解决语音合成中的一对多映射问题(文本到语音合成中 , 一条文本可以对应到多条可变的语音 , 这些可变信息包括语音时长、音高、音量等 。 FastSpeech 通过知识蒸馏降低语音训练目标的变化性来缓解一对多映射问题 , 但也造成了训练目标的信息损失 。 FastSpeech 2 通过引入对应的可变信息作为解码器输入 , 使输入输出信息尽量匹配 , 来解决这个问题) 。
可变信息适配器(Variance Adaptor)
可变信息适配器如图1(b)所示 , 包含了多种可变信息的预测器 。 在本工作中引入了时长预测器、音高预测器和能量预测器 。 在训练时 , 模型直接使用可变信息的真实值 , 与编码器的输出融合 , 作为解码器的输入 , 同时训练预测器使其拟合真实的可变信息 。 在推理阶段 , 模型使用预测器预测的可变信息 。
推荐阅读
- 智能电视|米家投影仪2 Pro官宣:1080P 支持远场语音、侧投
- 云计算|腾讯云小微首次技术开放日,揭秘AI语音背后的奥秘
- 中年|语音识别技术发展迅速,你需要全方位解读语音识别的最新著作
- 中年|江西师范大学Zhipeng Wang研究团队--简易合成碳球插层石墨烯片用作超级电容器电极
- 中年|欧盟开始对Alexa、Siri等语音助手展开反垄断调查
- 行业互联网|科大讯飞+智能语音系统!助力国家科技发展
- Amazon|欧盟拟对Siri和Alexa等语音助手发起反垄断调查
- 中国新闻网|中国国内首款少数民族语言AI合成主播问世
- Amazon,语音助手|亚马逊推出全新智能购物车 无需收银员就能结账
- AI人工智能|累计支持28.9亿终端 讯飞智能语音市场占有率稳居第一