刘旷|输入法如何决胜下一个10年,人工智能时代来袭( 二 )


讯飞输入法可以说是“科技成就输入法”的最佳代言人 。 一方面 , 其背靠有20多年智能语音技术沉淀的科大讯飞 , 已有20万小时训练数据积累;另一方面 , 科大讯飞有太多的国际赛事顶尖荣誉 , 比如在2018年由国际计算语言学协会(ACL)下属组织主办的第十二届国际语义评测比赛(SemEval2018)中 , 科大讯飞斩获了基于常识的机器阅读理解全球第一;2018年的国际权威英文语音识别大赛“CHiME-6”中 , 科大讯飞包揽了两项第一名;2019年在ICDAR2019举办的场景文本视觉问答挑战赛ST-VQA中 , 科大讯飞包揽了三项冠军;2020年初在德国The20BN-JesterDataset手势识别评测中 , 科大讯飞以97.26%的准确率斩获冠军 , 且刷新了世界纪录……讯飞输入法背后的黑科技可以从四方面来看 。
一、语音输入
语音输入讲究快速和准确 , 讯飞输入法之所以能达到一分钟400字、识别准确率98%的水平 , 主要在于其自研的“记忆增强的多通道全端到端语音识别框架” , 这项技术简单来说就是能够完全将前端语音处理过程深度学习化 , 并使用深度卷积神经网络和后端识别模型进行混合训练 , 从而大大提高了语音识别的效率 。
至于能够使用23种方言进行精准语音输入 , 一方面要靠通过多方言共享方式训练的Multi-lingual多语言建模技术 , 另一方面要靠GlobalPhone全球音素集 , 这项技术从声学层面的相似性来统一各方言的音素定义 , 使方言“语图谱”模型进一步精进 , 从而使得方言识别效果有效提升 。 多语种互译功能则对技术提出了更大的挑战性 , 以中英互译为例 , 讯飞输入法基于对抗样本训练方法提出了融合副语言特征的“高鲁棒性语音翻译技术” , 并在模型中结合特定技术 , 有效提高了最终翻译结果 。
二、拼音输入
在拼音输入上 , 讯飞输入法创新性引入了Encoder-Decoder框架 , 构建了新一代拼音识别引擎 , 极大简化了传统拼音识别模型 , 同时在Attention机制和长短期记忆网络的门控机制 , 以及Transformer等模块的共同作用下 , 长句输入识别效果有效提升 , 能够提前预测用户想输入的内容 , 还能有效实现智能纠错 。
此外 , 这一模型由于采用的是序列建模 , 建模不再依赖词典 , 更易实现中英文混合建模 , 因而让讯飞输入法在中英混输上实现了非常出色混输表现 。 值得注意的是 , 不论是智能预测 , 还是智能纠错 , 背后都有可实时更新的百万词库 。
【刘旷|输入法如何决胜下一个10年,人工智能时代来袭】三、手写输入
同样是手写 , 体验却完全不一样 , 这是因为讯飞输入法的手写识别可支持两万多类中文字符、52类英文字符、10类阿拉伯数字以及100多种特殊符号 , 这种超级识别能力的背后 , 是讯飞输入法的“HWR手写识别技术” , 这项技术采用的是CNN卷积神经网络技术 , 可支持实时手写轨迹 , 边写边出字 , 而且单个字符识别仅需15ms , 响应迅速无延迟 。
四、扫描输入
扫描输入的技术支撑是计算机视觉 , 面对复杂的手写文字、中英混合文字 , “OCR文字检测技术”可检测任意方向和形状的文字 , “OCR文字识别技术”则可以有效缓解因环境问题造成的识别效果低下问题 。
综上 , 基于AI和大数据的组合技术 , 如今的输入法不再死板坚硬 , 即使面对输入场景的复杂需求 , 也能够在不同语种、不同语境、不同语调下满足不同用户的需求 。 过去的输入法只能辅助 , 而现在 , 科技加持下的输入法 , 更像是一个“一站式”的输入管家 。
输入法的智能普惠
黑科技成就了输入法 , 也成就了输入法的地位 。 根据相关报告提供的数据 , 以三大输入法为代表的第三方输入法 , 已经覆盖了超过90%的中国网民 。
要是放大到整个输入法行业 , 可以说人人都是输入法的受益者 , 移动设备也好 , 个人电脑也好 , 日常交流必然离不开输入法的帮助 。 可以说 , 输入法已经成为一个互联网沟通的基础设施 。 而且值得庆幸的是 , 讯飞输入法等头部产品在技术上的进化 , 让这个基础设施不断产生质变 , 越来越智能 。


推荐阅读