语音交互的最佳应用场景便是眼睛不方便看,或者手不方便操作的时候 。“不方便看”比较典型的场景便是智能车载,“不方便操作”比较典型的场景便是智能音箱,这也是目前比较火的两个细分方向 。
一个完整的语音交互基本遵循下图的流程:
文章插图
(1)语音识别(ASR)
1)研究内容
语音识别的输入是声音,属于计算机无法直接处理的模拟信号,所以需要将声音转化成计算机能处理的文字信息 。传统的识别方式需要通过编码将其转变为数字信号,并提取其中的特征进行处理 。
传统方式的声学模型一般采用隐马尔可夫模型(HMM),处理流程是语音输入——编码(特征提取)——解码——输出 。
还有一种“端到端”的识别方式,一般采用深度神经网络(DNN),这种方式的声学模型的输入通常可以使用更原始的信号特征(减少了编码阶段的工作),输出也不再必须经过音素等底层元素,可以直接是字母或者汉字 。
在计算资源与模型的训练数据充足的情况下,“端到端”方式往往能达到更好的效果 。目前的语音识别技术主要是通过DNN实现的 。语音识别的效果一般用“识别率”,即识别文字与标准文字相匹配的字数与标准文字总字数的比例来衡量 。目前中文通用语音连续识别的识别率最高可以达到97% 。
2)衍生研究内容
- 麦克风阵列:在家庭、会议室、户外、商场等各种环境下,语音识别会有噪音、混响、人声干扰、回声等各种问题 。在这种需求背景下可以采用麦克风阵列来解决 。麦克风阵列由一定数目的声学传感器(一般是麦克风)组成,用来对声场的空间特性进行采样并处理的系统,可以实现语音增强、声源定位、去混响、声源信号提取/分离 。麦克风阵列又分为:2麦克风阵列、4麦克风阵列、6麦克风阵列、6+1麦克风阵列 。随着麦克风数量的增多,拾音的距离,噪声抑制,声源定位的角度,以及价格都会不同,所以要贴合实际应用场景来找到最佳方案 。
- 远场语音识别:解决远场语音识别需要结合前后端共同完成 。前端使用麦克风阵列硬件,解决噪声、混响、回声等带来的问题,后端则利用近场远场的声学规律不同构建适合远场环境的声学模型,前后端共同解决远场识别的问题 。
- 语音唤醒:通过关键词唤醒语音设备,通常都是3个音节以上的关键词 。例如:嘿Siri、和亚马逊echo的Alexa 。语音唤醒基本是在本地进行的,必须在设备终端运行,不能切入云平台 。因为一个7×24小时监听的设备要保护用户隐私,只能做本地处理,而不能将音频流联网进行云端处理 。语音唤醒对唤醒响应时间、功耗、唤醒效果都有要求 。
- 语音激活检测:判断外界是否有有效语音,在低信噪比的远场尤为重要 。
1)研究内容
是将文字转化为语音(朗读出来)的过程,目前有两种实现方法,分别是:拼接法和参数法 。
- 拼接法是把事先录制的大量语音切碎成基本单元存储起来,再根据需要选取拼接而成 。这种方法输出语音质量较高,但是数据库要求过大 。
- 参数法是通过语音提取参数再转化为波形,从而输出语音 。这种方法的数据库要求小,但是声音不可避免会有机械感 。
2)瓶颈
推荐阅读
- 一份不可多得的 TypeScript 学习笔记
- 儿童能喝普洱茶吗,喝普洱茶能减肥吗这样喝也许会有一点点效果
- 如何打造一款得心应手的VS Code?
- 一点隐私都没有了?聊天记录打码也不安全:大神亲自下场破解
- 局域网共享怎么设置都访问不了?别着急:一篇文章讲清了
- 水土不服的症状长痘痘
- 来月经前一天的症状
- 怀孕33天什么症状
- 俞敏洪|俞敏洪称新东方还有钱处理意外情况:努力拓展新业务 相信一切都会过去
- 腾讯|提供微信公众号“刷量”服务 一公司被判赔腾讯100万元