AI知识点汇总( 二 )

  • 阿里云(提供人脸识别、图像识别、图像搜索、视频识别等):https://ai.aliyun.com/?spm=a2c4g.11174283.1146454.294.167d1039G3kvVD
  • 图普科技(提供图像内容审核、人脸和人体识别、文字识别、图像场景识别等技术方案):https://www.tuputech.com/
  • 格灵深瞳(人眼摄像机、视图大数据分析平台、人脸识别系统等):http://www.deepglint.com/
  • 2.2 语音交互语音交互也是非常热门的方向之一,其实语音交互整个流程里包含语音识别、自然语言处理和语音合成 。自然语言处理很多时候是作为单独的一个领域来研究的,本文也将单独介绍自然语言处理,所以此处只介绍语音识别和语音合成 。
    语音交互的最佳应用场景便是眼睛不方便看,或者手不方便操作的时候 。“不方便看”比较典型的场景便是智能车载,“不方便操作”比较典型的场景便是智能音箱,这也是目前比较火的两个细分方向 。
    一个完整的语音交互基本遵循下图的流程:
    AI知识点汇总

    文章插图
     
    (1)语音识别(ASR)
    1)研究内容
    语音识别的输入是声音,属于计算机无法直接处理的模拟信号,所以需要将声音转化成计算机能处理的文字信息 。传统的识别方式需要通过编码将其转变为数字信号,并提取其中的特征进行处理 。
    传统方式的声学模型一般采用隐马尔可夫模型(HMM),处理流程是语音输入——编码(特征提取)——解码——输出 。
    还有一种“端到端”的识别方式,一般采用深度神经网络(DNN),这种方式的声学模型的输入通常可以使用更原始的信号特征(减少了编码阶段的工作),输出也不再必须经过音素等底层元素,可以直接是字母或者汉字 。
    在计算资源与模型的训练数据充足的情况下,“端到端”方式往往能达到更好的效果 。目前的语音识别技术主要是通过DNN实现的 。语音识别的效果一般用“识别率”,即识别文字与标准文字相匹配的字数与标准文字总字数的比例来衡量 。目前中文通用语音连续识别的识别率最高可以达到97% 。
    2)衍生研究内容
    • 麦克风阵列:在家庭、会议室、户外、商场等各种环境下,语音识别会有噪音、混响、人声干扰、回声等各种问题 。在这种需求背景下可以采用麦克风阵列来解决 。麦克风阵列由一定数目的声学传感器(一般是麦克风)组成,用来对声场的空间特性进行采样并处理的系统,可以实现语音增强、声源定位、去混响、声源信号提取/分离 。麦克风阵列又分为:2麦克风阵列、4麦克风阵列、6麦克风阵列、6+1麦克风阵列 。随着麦克风数量的增多,拾音的距离,噪声抑制,声源定位的角度,以及价格都会不同,所以要贴合实际应用场景来找到最佳方案 。
    • 远场语音识别:解决远场语音识别需要结合前后端共同完成 。前端使用麦克风阵列硬件,解决噪声、混响、回声等带来的问题,后端则利用近场远场的声学规律不同构建适合远场环境的声学模型,前后端共同解决远场识别的问题 。
    • 语音唤醒:通过关键词唤醒语音设备,通常都是3个音节以上的关键词 。例如:嘿Siri、和亚马逊echo的Alexa 。语音唤醒基本是在本地进行的,必须在设备终端运行,不能切入云平台 。因为一个7×24小时监听的设备要保护用户隐私,只能做本地处理,而不能将音频流联网进行云端处理 。语音唤醒对唤醒响应时间、功耗、唤醒效果都有要求 。
    • 语音激活检测:判断外界是否有有效语音,在低信噪比的远场尤为重要 。
    (2)语音合成(TTS)
    1)研究内容
    是将文字转化为语音(朗读出来)的过程,目前有两种实现方法,分别是:拼接法和参数法 。
    • 拼接法是把事先录制的大量语音切碎成基本单元存储起来,再根据需要选取拼接而成 。这种方法输出语音质量较高,但是数据库要求过大 。
    • 参数法是通过语音提取参数再转化为波形,从而输出语音 。这种方法的数据库要求小,但是声音不可避免会有机械感 。
    DeepMind早前发布了一个机器学习语音生成模型WaveNet,直接生成原始音频波形,可以对任意声音建模,不依赖任何发音理论模型,能够在文本转语音和常规的音频生成上得到出色的结果 。
    2)瓶颈


    推荐阅读