有道词典|我和欧阳娜娜一起搞研发网易|明星|我和欧阳娜娜一起搞

文章图片
AI新闻播报，开车明星导航，现如今根据文本生成语音的AI技术，那真是飞入寻常百姓家——见怪不怪了。
在这档口，作为这背后AI语音合成技术的研发人员，除了常规收集语音数据、训练模型、优化模型……
还能玩出什么花儿来？
……跟欧阳娜娜一起搞研发，算不算？（误）
“公费追星”是一种怎样的体验
故事要从一个不太普通的周一上午说起。
一大早，网易有道的语音工程师刘银，就跟同事们一起搭上了飞往上海的飞机。
之所以说不普通，是因为这趟出差不仅有工作任务，还寄托了前方后方一众工程师们的一点小期待。
这是有道词典明星语音二期项目的第一个阶段——训练数据录制。
去年9月，有道词典上线了王源的明星语音，成为学习领域第一个上线该功能的产品，大受用户好评。于是在进一步打磨模型之后，他们打算趁热打铁，上线新的女声明星语音。
而音源，正是刘银和同事们这次要近距离接触交流的欧阳娜娜。
对于这样的出差机会，刘银镇守本部的同事们直言：“羡慕坏了。这哪是出差，根本就是粉丝见面会。”
但其实对于刘银来说，兴奋之余，也并非没有压力。
在有道词典的明星语音功能中，熟悉的明星声音能为你读出每一个单词、每一个例句。
很显然，他们本身不可能完整地去录制全部的语音。
甚至因为时间成本的关系，最后能真正喂给TTS（语音合成）模型的源语音也非常有限：几个小时的录音，最后能用的可能只有一小部分。
要用极少的数据，最终合成出高质量的语音，从采集训练数据开始，就要做到严格的把控。
有道的工程师们为此做了两手准备。
一方面，结合一期项目的经验，不录单词，只录简单的短句，在有限时间内尽可能多地收集原始数据。
另一方面，就要靠刘银等人跟欧阳娜娜的临场交流，需要他们以技术人员的视角来“导演”录音过程，和欧阳娜娜本人打出配合，以录出可用性更高的语音数据。

文章图片
所以这场“粉丝见面会”，还仅仅是一个开始。
如何把欧阳娜娜的声音装进有道词典里
虽然已经有过一次上线王源语音的经验，但在训练模型这个环节，包括刘银在内的有道AI语音团队4人小组，还是花费了2周多的时间在模型的调整上。
主要的原因在于，单词和句子所需要的语音合成效果不同，在建模方面需要分别进行调整。
同时，针对模型本身，有道的工程师们进行了多次对比实验，包括经典的基于注意力的Tacotron2模型，业内最新的Non-Attention架构等，以期实现最接近欧阳娜娜本人声音质感，同时发音准确、地道的合成效果。
例句级别：基于注意力的Tacotron模型
具体而言，在例句级别，工程师们采用了基于注意力的Tacotron模型。
Tacotron模型使用的是经典的Seq2Seq架构，通过注意力机制来解决编码器和解码器长度不一致的问题。
原始的Tacotron使用了Location Sensitive Attention 。这种注意力机制的问题在于，不够鲁棒，且收敛速度较慢，尤其是在面对数据量较少的情况时，缺点尤为明显。其原因主要在于，没有充分利用声学模型的单调性这一特点。
对此，有道工程师采用了改进版的Foward Attention，来替换Location Sensitive Attention，同时对注意力对齐矩阵进行损失约束，以提升模型的稳定性和收敛速度。
另外，基础的Tacotron建模方案在某些发音（如低频发音）上效果不够好。为此，工程师们还采用了ASR（语音识别）来打辅助。
通过ASR的辅助建模，合成的句子语音可懂性更强，准确性和韵律方面也有所提升，可以解决在纯TTS方案中，有一些音发不出来的问题。
单词级别：基于时长模型的Tacotron模型
再说说单词方面。
前面也提到，为了节省时间成本，有道工程师们拿到的训练数据都是短句，没有单词。
这就导致在采用上述用于例句的TTS方案时，合成的单词读音在韵律感和音调上会出现一定问题，比如对于单音节或双音节单词，出现重复发音、漏音、语速过快等情形。
为此，有道工程师们尝试了业内最新模型架构Non-Attentive Tacotron，通过时长模型来替代注意力计算模块。

有道词典|我和欧阳娜娜一起搞研发

推荐阅读

高职专科是什么意思啊？

[塞尔维亚]塞尔维亚：我们不需要钱，中国网友：不，你需要，这大概就是友谊

楚天都市报|两女子在朋友圈对骂两个月，结果……

白酒：普通香型白酒最佳饮用期是5年，酱香酒是15年！你买的什么酒？

「言车社」30万的特斯拉Model3没质感？这台车完胜

阿力讲星座|3属相遇流年旺财，生意红火，财气连绵，婚姻美满！，8.7日开始

周到|旅美熊猫家族添新丁，四年之后它也会坐“熊猫快递号”专机回家吗？

祥说篮球|东部五虎或被4-0横扫？最贵阵容变败笔，2.7亿双巨头合砍17分

故事大全600字左右?的故事600字作文

生二胎到底是值不值？过来人：用3年辛劳换30年幸福，真的很值

怎么编麻花辫好看

「光刻胶」注意：底部潜伏这些股！（名单）

央视新闻|两部门：鼓励基层群众性自治组织参与城乡社区防汛救灾工作

勒布朗·詹姆斯|狂轰28+12+8，詹皇刷爆5大神迹，凶狠犯规+争议吹罚挡不住他

艾滋病：当艾滋病恐惧症极端情绪来临时我们应该如何应对和脱恐

美丽一点奈何自己都还走不稳，非常暖心，暖哭的一幕：弟弟想牵着姐姐

淘宝直播运营工资一般怎么样淘宝直播员工资多少

【黄璐琦】中国工程院院士黄璐琦：目前湖北地区病例中医药参与

如何正确选购家具

翼龙贷：杜绝暴力催收债款催收有技巧