语音技术的产业应用迎来第二波高潮
痛苦的日子总算没有太长 。 在2007年 , 微软公司收购语音识别技术企业Tellme Networks , 并开始组建自己的语音团队 , 语音技术的产业应用又重新回到大公司的关注热点中 。 很快 , 谷歌于2008年在美国发布了英文语音搜索服务Voice Search,并应用于Android、诺基亚S60、黑莓、iPhone 等多个系列的手机 。 之后 , 谷歌又在 2009 年发布了中文语音搜索 , 语音的产业应用迎来了新一波高潮 。 这一波热潮的核心特点是以互联网需求和实现为基础 , 此时模型处在云端 , 所以体积可以更大 。 例如语言模型 , 由于位于云端 , 语言模型体积可以达到上G,这是之前2000年左右的ViaVoice 语音系统所不可能达到的(2000年的比较好的PC计算机内存才256M , 那是语言模型位于终端 , 也只有几十M) 。 语言模型位于云端后 , 热词新词的信息更新也更加及时 , 同时大的模型体积意味着对支持的语言领域更加广泛 。 同时 , 技术上虽然声学模型仍然是以 HMM 框架 GMM 建模为主体 , 但是可以采用更多更大的训练语料 。 数千小时乃至上万小时的声学训练语料库已经开始进入工业界 。 因此从 2000 年到 2010 年左右的十年期间 , 虽然语音识别的核心算法技术仍然是 HMM、GMM 和 Ngram 统计语言模型 , 但是因为互联网技术的引入 , 可以采用云端体积更大的声学模型和语言模型 , 训练这些模型的语料库也显著增加 , 最终导致语音交互的用户体验得到很大提升 , 语音技术的云端应用逐渐开始流行 。
文章插图
深度学习首次应用语音识别的系统框图
2011年, 微软的邓力和俞栋两位学者通力合作, 把深度学习技术应用于工业级的大词汇量连续语音识别实验, 获得相对于传统基线系统 23% 的显著提升 , 这标志着语音识别技术最先迎来深度学习革命 。 深度学习应用于语音识别 , 最初的整体建模框架仍然是 HMM , 但是声学输出分布 GMM 模型被替换成了深度学习 DNN 模型 。 这时候的语音识别系统是一种 HMM 和 DNN 混合 (hybrid) 的语音识别系统 。 随着深度学习技术在语音技术中越来越深入的应用 , 从 DNN 到 CNN , 再到 CNN+LSTM , 语音识别系统的字错误率以每年 10%- 15% 的相对错误率降低 。 再后来伴随着 CTC 技术的引入 , 更大粒度的建模单元(WordPiece 模型 , 音节和字)开始逐渐越来越多的被采用 , 应用于语音识别几十年的 HMM 框架逐渐被淘汰 。
语音识别技术进入端到端时代
从 2015 年开始到 2020 年这段时间 , 注意力建模技术的研究 , 又让语音识别技术开始进入端到端的时代 。 2019 年之前 , Attention(注意力) 技术早已经广泛应用于 NLP、图像等商业产品领域 。 但是语音识别领域 , 从 2015 年开始 , 实验室内就广泛进行了基于 Attention 的声学建模技术 , 也获得了广泛的成功 。 国际上通常用于语音识别的注意力模型有两种 , 一种是谷歌的以 LSTM 为基础的 LAS(listening attention and spelling) 模型 。 另外一种是基于 self attention 的 transformer 模型 。 这两种注意力模型在实验室的各种实验中 , 都能够显著提升语音识别系统的识别率 , 同时实现了一套深度学习模型 , 语音语言一体化的端到端建模 。 虽然注意力模型在实验室范围内获得巨大成功 , 但是应用于工业界的实际在线语音交互产品 , 还存在一系列的技术障碍 。 核心难题就是在线需要识别系统需要流式解码 , 而注意力模型需要拿到整段语音才能进行解码 , 会造成用户无法接受的识别延迟问题 。 所以注意力模型直到 2019 年初 , 都没有在工业在线语音交互中使用注意力模型做语音识别的成功案例 。 2019年1月 , 百度发布率先发布了基于流式置信度建模技术的语音输入法产品 , 首次提出流式多级截断的注意力模型 (SMLTA) , 这是国际上注意力模型在在线语音识别领域的大规模工业应用的首个成功案例 。 之后 , 流式注意力模型在学术界也开始进入广泛的研究 。 最近 , 语音识别应用中的逐渐集中到流式的 self-attention 建模 , 包括流式的 transformer 等 。 人类对于语音识别的核心技术提升的脚步从来没有停止过 。
推荐阅读
- 通话数量增加超50%!WhatsApp用户在跨年夜打出14亿个语音视频通话
- 畅谈联想手机十年进化史:临时换将是没落的导火索
- 微软推“语音启动器”功能:改善用户跟Windows 10互动体验
- 获评IDC 报告7项第一,阿里语音语言AI领跑云厂商
- 科大讯飞公开质疑云知声招股书造假,语音病历市场谁主沉浮?
- Telegram新增群组语音聊天功能
- 外媒:Telegram发布了一项创新的群组语音聊天功能
- 外媒专访OPPO Benelux AED总经理 畅谈与nendo的概念设计合作
- WhatsApp测试Mac桌面客户端的语音和视频通话功能
- 手机信号栏中的HD,代表“高清语音通话”,流量不够记得要关闭