有道词典|我和欧阳娜娜一起搞研发


有道词典|我和欧阳娜娜一起搞研发
文章图片
AI新闻播报,开车明星导航,现如今根据文本生成语音的AI技术,那真是飞入寻常百姓家——见怪不怪了 。
在这档口,作为这背后AI语音合成技术的研发人员,除了常规收集语音数据、训练模型、优化模型……
还能玩出什么花儿来?
……跟欧阳娜娜一起搞研发,算不算?(误)
“公费追星”是一种怎样的体验
故事要从一个不太普通的周一上午说起 。
一大早,网易有道的语音工程师刘银,就跟同事们一起搭上了飞往上海的飞机 。
之所以说不普通,是因为这趟出差不仅有工作任务,还寄托了前方后方一众工程师们的一点小期待 。
这是有道词典明星语音二期项目的第一个阶段——训练数据录制 。
去年9月,有道词典上线了王源的明星语音,成为学习领域第一个上线该功能的产品,大受用户好评 。于是在进一步打磨模型之后,他们打算趁热打铁,上线新的女声明星语音 。
而音源,正是刘银和同事们这次要近距离接触交流的欧阳娜娜 。
对于这样的出差机会,刘银镇守本部的同事们直言:“羡慕坏了 。这哪是出差,根本就是粉丝见面会 。”
但其实对于刘银来说,兴奋之余,也并非没有压力 。
在有道词典的明星语音功能中,熟悉的明星声音能为你读出每一个单词、每一个例句 。
很显然,他们本身不可能完整地去录制全部的语音 。
甚至因为时间成本的关系,最后能真正喂给TTS(语音合成)模型的源语音也非常有限:几个小时的录音,最后能用的可能只有一小部分 。
要用极少的数据,最终合成出高质量的语音,从采集训练数据开始,就要做到严格的把控 。
有道的工程师们为此做了两手准备 。
一方面,结合一期项目的经验,不录单词,只录简单的短句,在有限时间内尽可能多地收集原始数据 。
另一方面,就要靠刘银等人跟欧阳娜娜的临场交流,需要他们以技术人员的视角来“导演”录音过程,和欧阳娜娜本人打出配合,以录出可用性更高的语音数据 。
有道词典|我和欧阳娜娜一起搞研发
文章图片
所以这场“粉丝见面会”,还仅仅是一个开始 。
如何把欧阳娜娜的声音装进有道词典里
虽然已经有过一次上线王源语音的经验,但在训练模型这个环节,包括刘银在内的有道AI语音团队4人小组,还是花费了2周多的时间在模型的调整上 。
主要的原因在于,单词和句子所需要的语音合成效果不同,在建模方面需要分别进行调整 。
同时,针对模型本身,有道的工程师们进行了多次对比实验,包括经典的基于注意力的Tacotron2模型,业内最新的Non-Attention架构等,以期实现最接近欧阳娜娜本人声音质感,同时发音准确、地道的合成效果 。
例句级别:基于注意力的Tacotron模型
具体而言,在例句级别,工程师们采用了基于注意力的Tacotron模型 。
Tacotron模型使用的是经典的Seq2Seq架构,通过注意力机制来解决编码器和解码器长度不一致的问题 。
原始的Tacotron使用了Location Sensitive Attention 。这种注意力机制的问题在于,不够鲁棒,且收敛速度较慢,尤其是在面对数据量较少的情况时,缺点尤为明显 。其原因主要在于,没有充分利用声学模型的单调性这一特点 。
对此,有道工程师采用了改进版的Foward Attention,来替换Location Sensitive Attention,同时对注意力对齐矩阵进行损失约束,以提升模型的稳定性和收敛速度 。
另外,基础的Tacotron建模方案在某些发音(如低频发音)上效果不够好 。为此,工程师们还采用了ASR(语音识别)来打辅助 。
通过ASR的辅助建模,合成的句子语音可懂性更强,准确性和韵律方面也有所提升,可以解决在纯TTS方案中,有一些音发不出来的问题 。
单词级别:基于时长模型的Tacotron模型
再说说单词方面 。
前面也提到,为了节省时间成本,有道工程师们拿到的训练数据都是短句,没有单词 。
这就导致在采用上述用于例句的TTS方案时,合成的单词读音在韵律感和音调上会出现一定问题,比如对于单音节或双音节单词,出现重复发音、漏音、语速过快等情形 。
为此,有道工程师们尝试了业内最新模型架构Non-Attentive Tacotron,通过时长模型来替代注意力计算模块 。


推荐阅读