|FastSpeech语音合成系统技术升级,微软联合浙大提出FastSpeech2( 二 )
可变信息预测器如图1(c)所示 , 由 ReLU 激活的2层一维卷积网络组成 , 每个网络后加上 Layer Norm 和 Dropout , 以及最后输出标量的线性层 。 这个模块堆叠在音素编码器之上 , 并与 FastSpeech 2 模型共同训练 , 使用均方误差(MSE)作为损失函数 。 可变信息预测器的输出是对应的可变信息序列 。 其中音高预测器的输出是梅尔频谱对应的音高序列 , 能量预测器的输出是梅尔频谱的能量序列 , 而时长预测器的输出是音素的时长序列 , 与 FastSpeech 中的时长信息提取方式(使用自回归 Teacher 模型提取时长信息)不同 , FastSpeech 2 使用一种开源的文字语音对齐工具(Montreal Forced Aligner, MFA)来提取更精准的时长信息 。
FastSpeech 2s
在 FastSpeech 2 的基础上 , 我们提出了 FastSpeech 2s 以实现完全端到端的文本到语音波形的合成 。 FastSpeech 2s 引入了一个波形解码器 , 如图1(d)所示 , 它以可变信息适配器的输出隐层序列为输入 , 以波形为输出 。 在训练时 , 为了帮助可变信息预测器的训练 , 梅尔频谱解码器及其训练损失函数被保留 。 在生成阶段 , 将梅尔频谱解码器丢弃后 , 使其成为一个文本到波形的端到端系统 。
本文插图
实验评估
为了验证 FastSpeech 2 和 2s 的有效性 , 我们从声音质量、训练和生成速度、可变信息分析、可控制性几个方面来进行评估和分析 。
声音质量
我们选用 LJSpeech 数据集进行实验 , LJSpeech 包含13100个英语音频片段和相应的文本 , 音频的总长度约为24小时 , 并对测试样本作了权威的 MOS 测试 , 每个样本至少被20个英语母语评测者评测 。 MOS 指标用来衡量声音接近人声的自然度和音质 。 对比我们的方法与以下语音样本:1) GT(Ground Truth) , 真实音频数据;2) GT (Mel + PWG) , 用 Parallel WaveGAN(PWG)作为声码器(Vocoder)将真实梅尔频谱转换得到的音频;3) Tacotron 2 (Mel + PWG);4) Transformer TTS (Mel + PWG);5) FastSpeech(Mel + PWG) 。
从结果(如表1所示)中可以看出 , FastSpeech 2 和 2s 的音质优于 FastSpeech , 这证明了利用真实语音目标来训练模型的优势 , 同时也显示了通过提供额外的可变信息(音高、能量和更准确的音素时长)以解决一对多映射的有效性 。
【|FastSpeech语音合成系统技术升级,微软联合浙大提出FastSpeech2】
本文插图
表1:语音合成质量 MOS 测试
训练速度和合成速度
我们将 FastSpeech 2 和 2s 与具有相似参数量的 FastSpeech 的训练速度和合成语音速度作对比(结果如表2所示) 。 可以看出 , 在训练速度上 , 由于 FastSpeech 2 去除了蒸馏的过程 , 该模型可以实现3倍的训练加速 。 在合成语音速度上 , 它可以在单卡上实现近205倍实时的毫秒级的端到端语音合成 。 在波形生成速度上 , 比自回归的 Transformer TTS 提速将近170倍 。
本文插图
表2: FastSpeech 2 和 2s 与 FastSpeech 的训练速度和合成速度作对比 。 RTF 代表合成1秒的音频需要的时间 。 训练和测试的时间统计均在 36 Intel Xeon CPU , 256GB内存和单张 V100 GPU 上进行 , 批大小分别是48和1 。
可变信息调节
FastSpeech 2 可以在模型中调节语速、音高和能量 。 这里展示音高调节效果 , 通过实验发现 , 将音高降低到 0.75x 或者升高到 1.5x , 生成的语音均很清晰且不失真(结果如图2所示) 。
推荐阅读
- 智能电视|米家投影仪2 Pro官宣:1080P 支持远场语音、侧投
- 云计算|腾讯云小微首次技术开放日,揭秘AI语音背后的奥秘
- 中年|语音识别技术发展迅速,你需要全方位解读语音识别的最新著作
- 中年|江西师范大学Zhipeng Wang研究团队--简易合成碳球插层石墨烯片用作超级电容器电极
- 中年|欧盟开始对Alexa、Siri等语音助手展开反垄断调查
- 行业互联网|科大讯飞+智能语音系统!助力国家科技发展
- Amazon|欧盟拟对Siri和Alexa等语音助手发起反垄断调查
- 中国新闻网|中国国内首款少数民族语言AI合成主播问世
- Amazon,语音助手|亚马逊推出全新智能购物车 无需收银员就能结账
- AI人工智能|累计支持28.9亿终端 讯飞智能语音市场占有率稳居第一