「AI语音评测」技术简述与应用层级( 二 ) 编辑导语：随着科技的发展

预处理：在开始语音识别前，需把首尾端静音切除，降低对后续步骤造成干扰，这一般称作VAD；这可以减少音频数据长度，提高识别精准度；如果预处理内容全部在云端， “信号处理”（降噪）也会在预处理阶段进行。
特征提取：特征提取将提取出来的特征作为参数，为模型计算做准备。简单理解就是语音信息的数字化，然后再通过后面的模型对这些数字化信息进行计算；语音文字识别情况下，主要是提取音素特征；其他情况如情绪识别，还需要提取响度/音高等参数。

声学模型（AM）/语言模型（LM）/词典（lexicon）：

声学模型（AM）：将声学和发音学技术进行整合，以特征提取模块提取的特征为输入，计算音频对应音素之间的概率；简单说就是把声音转成音素，类似把声音转成拼音；优化声学模型同时也需要适量的音频数据进行训练。
语言模型（LM）：将语法和字词知识整合，计算字词在句子里出现的概率，简单理解就是计算几个字词组成句子的概率。
词典（lexicon）：词典（lexicon）就是发音字典，中文里就是拼音与汉字的对应，英文里就是音标与单词的对应；其目的是根据声学模型识别出来的音素，来找到对应的单词，在声学模型和语言模型建立桥梁，将两者联系起来。

文章插图
通过以上三者的结合计算，得到音频的解码和音频转译文字后的强制对齐结果，此结果用于多维度评测反馈和得分的计算。
评测结果算法：

文章插图
评测结果是多维度的，包括音素、语调、流利度、断句、完整度等内容；但不同语种下评测维度是不同的，这与语言的特性有关，因此需要针对不同语种单独定制评测的维度。
以日语为例，不仅包括上述常规的语调，流利度等常规维度，同时也有单词音调、日语音拍、音高等其他维度的分析。
至于每个维度的具体算法，就牵涉的一些技术性更强和数学算法的内容了，因此这里不做过多解释。如果可能，我们以后单独探讨不同语种下不同维度算法的原理。
三、「AI语音评测」多维度应用层级任何AI技术的进步，应该体现在更加适应人类的思维方式，而不再感觉像是一个API终端。
接下来围绕「AI语音评测」罗列几个维度的应用层级，看看它具体能做什么。
1. 评测主体维度评测主体维度是最容易被理解的，具体分为以下几个维度：

层级一：音素，例如音标中的[a:] ， [?]等。
层级二：单词/单音，如[英语字母ABCD]或[单词good] ， [日语假名あいう]或[单词お母さん]等。
层级三：句子，由多个独立的单词拼接而成。
层级四：段落，由多个独立的句子拼接而成。
层级五：文章，由多个独立的段落拼接而成。

针对以上五个层级，「AI语音评测」都给出了对应的解决方案，一般情况下该维度发展至句子层级即可满足大部分需求。
2. 指导反馈维度指导反度维度是「AI语音评测」的核心维度，该维度直接展示了不同层级中指导反馈内容角度和粒度。
让我们以一个用户练习口语场景为例，每进阶一个层级，都应降低用户的思考负担，让用户得到更接近“口语教师”的指导反馈。
层级一：仅提供用户发音和标准发音回放功能
层级一与「AI」技术无任何关系，几乎所有的评测工作都留给了用户；用户手动播放每一组自身读音与标准读音，用听觉感知发音差距。
本层级用户体验：除非很简单的发音，否则大多用户对发音细节、进步程度和改进点感到茫然。