观察者网|从60%到85%,科大讯飞是怎么做到的?( 二 )


语音合成
接下来我们来看一下语音合成 。 我们知道语音合成一般是以自然通报分来作为评价指标的 , 其中5分是满分播音员的水平 , 4分是普通发音人的水平 。 过去我们是在中英文上 , 包括冰波形拼接、包括参数合成的方法上达到了普通发音人水平 。
近年来 , 伴随着深度学习的加持 , 我们提出了基于听感量化的多人混合训练等合成框架 , 并进一步在向配音合成 , 然后对话合成等更有表现力的场景 , 做到了接近4.5分的水平 。
合成技术也在持续进步 , 合成的一些领域 , 风格也是从单一向多元化发展 。 那么问题又来了 , 当我们的合成自然度已经越来越接近真人水平的时候 , 合成还能有哪些令人惊喜的提升呢?合成下一步发展方向又是什么?
我们要先想一下 , 为什么像短视频有声书这样的内容非常吸引人 , 因为它不仅仅是单纯的从文本找语音的生成 , 而是基于我们的文本、声音、画面等基本的素材 , 实现了全方位的包装 。 例如 , 我们的语音当中会包含角色演绎、情感切换的内容在配合上背景的音乐 , 各种音效 , 从而形成了这样一个非常生动活泼的内容 。
像我们的语音合成的发展方向 , 同样不能只以单纯的追求自然度MOS分为目标 , 而是要追求用户可以感知的 , 同时技术可以实现的更高表现力的呈现 。 这里我们也可以通过从文本内容当中挖掘到角色、情感等更深层的信息 。 通过刚才说的音乐音效等听感的提升 , 以及我们多模态这样更具表现力的呈现来实现 。
对应于语音识别的全场景音频解析 , 我们认为语音合成也需要实现从语音到声音的全场景音频合成 。 去年1024发布会上 , 我们在车载场景下使用我们的环绕音效 , 提升了用户听感的效果 。 今年我们又进一步进行了拓展 , 一方面 , 我们可以基于自然语言理解技术 , 从文本当中分析到合适的情感焦点以及我们角色相关的信息 , 并通过语音呈现出来 , 进一步结合我们针对一些特殊情况打造的背景音乐 , 从而呈现出一场全局的音频、全场的一个合成 。 这里我们也是以一个交互场景为例子 , 来看一下我们这样一个听感提升的效果 , 请放视频 。
我们可以看到在这个例子当中 , 一方面它通过对内容的理解 , 实现一人分饰多角和情感的变化 。 另外一方面它能通过对场景的理解 , 当知道用户累的时候 , 可以主动的去推送这样一些舒缓的音乐和音效 。 这一解决方案除了在交互场景 , 在小说合成、配音合成等场景也大有可为 。
另外我们知道情感的表达、合成和预测也是我们语音合成当中的一个重要的方向 , 也是业界的研究热点 。 但是现在我们看到业界的情感语音合成一般是输入一句文本 , 并指定一种情感 , 然后输出一段饱含情感的语音 。
但我们想一下 , 在人与人沟通过程当中 , 其实情感的表达并不是这么全局化、单一化的 , 而是有一些细微的变化情况 。 我们的机器合成常被人们诟病 , 说这个声音没有人情味的一个表现 。
针对这样一个问题 , 我们也是从单一的情感合成升级到面向交互场景的这样一个微情绪合成的方案 。 该方案也是基于我们刚才说的 , 通过听感量化的编码 , 来对我们多种情感进行组合式编码 , 以实现我们对局部一些情感的准确的预测和控制 。 在有了这样一个方案之后 , 我们再结合情绪识别等其他的方案 , 就可以在交互当中体现出一些细微的情感变化 , 让我们的用户用不同的语气说话的时候 , 可以得到一些不同的反馈 , 让我们整个的交互过程变得更加有趣 , 更加有人情味 。
虚拟形象
接下来我们来看一下多模态合成 , 也就是虚拟形象 。 我们在去年发布了全球首个多语种虚拟主播小晴 , 大家也非常熟悉了 。 今年我们也是陆续发布了更多的虚拟主播 , 并在多家媒体使用 。
今年我们为小晴进一步研发了表情生成、动作生成等技术 , 同时结合我们生活化场景的设计进一步的优化 , 让我们的小晴具备了交互的能力 。 当我们虚拟形象具备更好的交互能力之后 , 再结合我们在一些场景的静态和动态内容的嵌入 , 我们就有可能形成一些更加有意思的现象 。


推荐阅读