「AI语音评测」技术简述与应用层级编辑导语：随着科技的发展

编辑导语：随着科技的发展， AI人工智能已经运用于我们的学习生活中；语音测评基于在线教育场景，使用语音识别、特征提取、声学模型等技术，提供成人和儿童的口语发音评测；本文作者分享了关于AI语音评测的技术简述与应用层级，我们一起来看一下。
文章插图
一、前言「AI语音评测」技术，指的是针对口语发音水平和差错，进行自动评价、检错并提供指导纠正的技术。
该技术经过几十年的发展，在中英文发音标准程度、口语表达能力等评测任务上已经超越了人类口语评测专家水平，目前该技术被普遍使用在中英文的口语评测和定级中。
接下来我们会讨论：

「AI语音评测」技术简述；
「AI语音评测」多维度应用层级。

二、AI语音评测基本技术简述1. AI语音评基本规则对于AI语音评测技术，目前相对流行的是基于DNN-HMM的声学模型，获得音素级别的解码结果以及单词和音素级别的强制对齐结果的方法。
音素：根据语音的自然属性划分出来的最小语音单位。
DNN-HMM：深层神经网络-隐藏马尔科夫模型（Deep Neural Network-Hidden Markov Model），是目前相对流行的声学模型。它的出现基本替代了之前的GMM-HMM模型。
简单的说，能够对音素、单词、句子、段落等多个级别的发音情况进行评价和指导反馈；测评维度包括发音准确度（音素/声调）和流利度、语调、断句、完整度等。
使用该技术方法须满足以下条件：

开发前确定针对的评测语种（如英语、日语、德语等）；
以评测语种母语者标准语音为蓝本；
针对评测发音特点设计评测维度；
针对学习者母语（如汉语）发音特点定位可能存在的缺陷。

可以得到的结果：

段落、句子、单词、音素多个级别维度的，包括语调、断句、完整度、流利度等多个方面的指导反馈；
针对各个级别和维度的分项和综合得分。

2. AI语音评测基本原理1）整体架构

文章插图
流程：

用户根据给定的文本生成语音；
前端产品通过「评测接口」上传音频至「语音评测引擎」；
引擎以「语音评测模型」为基准，通过解码计算处理得到评测结果；
通过「评测接口」将评测结果返回至用户。

几个概念：

语音评测引擎：AI评测解码和计算的核心模块，通过语音识别(ASR)解码转译，与给定的文本强制对齐，通过不同维度的算法得出指导反馈和评测得分。
后台配置系统：语音评测前，需将给定的文本拆分成独立的单词或单音/音素并存储在后台配置系统中，为语音评测引擎提供对齐标准。
语音评测模型 & 训练所需语料：使用评测引擎前，需使用适量的语料离线训练形成语音评测模型，该模型是引擎进行解码计算处理的依据。

2）语音评测引擎原理
通过对整体架构的解读，我们不难发现很大部分工作都是由「AI评测引擎」完成的，接下来我们再简单了解一下评测引擎内部的流程和原理。

文章插图
流程：输入声音讯号→ASR语音识别→多维度算法→反馈&得分。
输入声音讯号：通过接口将音频文件传输至后台语音评测引擎。
语音识别（ASR）：ARS（Automatic Speech Recognition）是一种将人类语音转换为文本的技术。在这里的作用是将上传的音频内容转换成文本。
ASR过程是相对复杂的，这里简述其中几个步骤：