『脑极体』数据洪流下的语音输入法,需要一副钢筋铁骨( 二 )


而百度输入法通过技术优化 , 将普通话和六大方言融合成一个语音识别模型 , 实现了方言与方言、方言与普通话的混合语音输入 , 让用户可以免切换就能“方言自由说” , free is not free(自由不是免费的) , 人情味的背后则是百度输入法技术人员的不懈努力 。
『脑极体』数据洪流下的语音输入法,需要一副钢筋铁骨
本文插图
当然 , 在语音技术上完成业界顶级考验 , 似乎是百度这个“以AI为名”的科技公司的应有之义 。
而用户的标准却远远不止如此 。 我们知道 , 停课停学让许多95后、00后也以前所未有的参与度加入了网络大军 。
他们的要求可不仅仅是“听得懂、听得清、听得快” , 还需要炫酷好玩才能占据手机C位 。
此时 , 百度输入法的综合AI实力就开始显效 , 通过图像识别、AR等技术的引入 , 让输入法得以拥有AI斗图、神句配图、凌空手写、皮肤主体C位识别等超越语音、文字的特色功能 , 也成为业内首家可以多场景整句智能预测的输入法产品 , 成功俘获了众多“Z世代”用户的心 。
『脑极体』数据洪流下的语音输入法,需要一副钢筋铁骨
本文插图
至此 , 百度输入法开始让“输入”这个司空见惯的网络冲浪动作 , 开始向“全感官时代”迈进 。
不难看到 , 作为人与机器交流的直接媒介 , 百度输入法能够抗住特殊时期的数据洪流与挑剔眼光 , 依靠的就是支撑起体验质变的“技术长城” 。
千锤百炼:百度输入法背后的“技术长城”是如何炼成的?
在明确了百度输入法与技术支持之间密不可分的联系之后 , 就不难理解其为何能托起日均10亿次语音请求量的庞大需求 。
当然 , 在线访问激增只是诱因 , 之所以能赢得这场无形战争 , 核心在于百度输入法已经构筑起了一个固若金汤的技术长城 , 足以抵御外界洪流 。
在此 , 可以将百度输入法拆解成几个核心构件:
1.自研SMLTA模型的技术底座 。
在国际上 , 我们常常会将百度与中国AI力量代表联系在一起 , 它的技术能力到底强于何处 , 足以写一部书来说明 。
但支撑起百度输入法与广大用户之间的紧密联系 , 核心就在于自主研发的流式截断的多层注意力模型——Streaming trancated multi-layer attention(SMLTA) 。
是不是每个汉字都认识 , 但组合起来却不知道是干嘛的?这是去年百度在语音技术上的一项重大创新 , 在全世界范围内 , 第一次将基于注意力技术的在线语音识别服务 , 大规模地应用于输入法产品 , 服务数亿用户 。
截断:改变了原本的整句识别建模 , 变成了局部一小段语音的注意力模型 , 比如将中文、英文、方言等截断 , 在保证主体精度不降低的同时 , 可以更有效地去识别其他内容;
流式:简单来说就是用户一边说话 , 算法一边根据上传的语音数据来识别 。 好处是可以实时调整 , 减少延迟 , 从而避免了用户上传识别的较长等待 。
多级:传统的注意力模型面对的句子越长 , 对语音数据的特征选择和匹配难度就越大 , 出错的概率也会更高 。 但SMLTA引入了多级注意力机制 , 让机器对语音特征进行层层递进的选择 , 让模型的识别率甚至能够超越传统的全局注意力模型 。
『脑极体』数据洪流下的语音输入法,需要一副钢筋铁骨
本文插图
这也是为什么 , 流式解码中 , 机器只能接收部分片段 , 模型精度也往往会低于整句 。 但SMLTA就能做到 , 在边说边识别的前提下保持足够的精准度 。
SMLTA模型的另一个创新之处在于 , 将CTC(一种语音识别算法)和Attention模型集结在一起 , 借助CTC的端到端训练 , 来辅助提高注意力模型的精度 。 让注意力模型在自动寻找每个字的大概范围时 , 借助CTC来做截断 , 帮助它更精准地定位 。


推荐阅读