「AI语音评测」技术简述与应用层级( 二 )
- 预处理:在开始语音识别前 , 需把首尾端静音切除 , 降低对后续步骤造成干扰 , 这一般称作VAD;这可以减少音频数据长度 , 提高识别精准度;如果预处理内容全部在云端 , “信号处理”(降噪)也会在预处理阶段进行 。
- 特征提取:特征提取将提取出来的特征作为参数 , 为模型计算做准备 。 简单理解就是语音信息的数字化 , 然后再通过后面的模型对这些数字化信息进行计算;语音文字识别情况下 , 主要是提取音素特征;其他情况如情绪识别 , 还需要提取响度/音高等参数 。
- 声学模型(AM):将声学和发音学技术进行整合 , 以特征提取模块提取的特征为输入 , 计算音频对应音素之间的概率;简单说就是把声音转成音素 , 类似把声音转成拼音;优化声学模型同时也需要适量的音频数据进行训练 。
- 语言模型(LM):将语法和字词知识整合 , 计算字词在句子里出现的概率 , 简单理解就是计算几个字词组成句子的概率 。
- 词典(lexicon):词典(lexicon)就是发音字典 , 中文里就是拼音与汉字的对应 , 英文里就是音标与单词的对应;其目的是根据声学模型识别出来的音素 , 来找到对应的单词 , 在声学模型和语言模型建立桥梁 , 将两者联系起来 。
文章插图
通过以上三者的结合计算 , 得到音频的解码和音频转译文字后的强制对齐结果 , 此结果用于多维度评测反馈和得分的计算 。
评测结果算法:
文章插图
评测结果是多维度的 , 包括音素、语调、流利度、断句、完整度等内容;但不同语种下评测维度是不同的 , 这与语言的特性有关 , 因此需要针对不同语种单独定制评测的维度 。
以日语为例 , 不仅包括上述常规的语调 , 流利度等常规维度 , 同时也有单词音调、日语音拍、音高等其他维度的分析 。
至于每个维度的具体算法 , 就牵涉的一些技术性更强和数学算法的内容了 , 因此这里不做过多解释 。 如果可能 , 我们以后单独探讨不同语种下不同维度算法的原理 。
三、「AI语音评测」多维度应用层级任何AI技术的进步 , 应该体现在更加适应人类的思维方式 , 而不再感觉像是一个API终端 。
接下来围绕「AI语音评测」罗列几个维度的应用层级 , 看看它具体能做什么 。
1. 评测主体维度评测主体维度是最容易被理解的 , 具体分为以下几个维度:
- 层级一:音素 , 例如音标中的[a:] , [?]等 。
- 层级二:单词/单音 , 如[英语字母ABCD]或[单词good] , [日语假名あいう]或[单词お母さん]等 。
- 层级三:句子 , 由多个独立的单词拼接而成 。
- 层级四:段落 , 由多个独立的句子拼接而成 。
- 层级五:文章 , 由多个独立的段落拼接而成 。
2. 指导反馈维度指导反度维度是「AI语音评测」的核心维度 , 该维度直接展示了不同层级中指导反馈内容角度和粒度 。
让我们以一个用户练习口语场景为例 , 每进阶一个层级 , 都应降低用户的思考负担 , 让用户得到更接近“口语教师”的指导反馈 。
层级一:仅提供用户发音和标准发音回放功能
层级一与「AI」技术无任何关系 , 几乎所有的评测工作都留给了用户;用户手动播放每一组自身读音与标准读音 , 用听觉感知发音差距 。
本层级用户体验:除非很简单的发音 , 否则大多用户对发音细节、进步程度和改进点感到茫然 。
推荐阅读
- “横屏旗舰”iQOO 7评测:在极致体验的赛道上一路狂奔
- 搭载天玑1000+ 荣耀V40来了!赵明:一如既往坚持技术创新
- 红米k40pro和iqooneo3哪个好性价比高 参数对比区别评测
- 恩杰KRAKEN X73 RGB评测:颜值升级无穷尽
- 可靠实用的最佳拍档 法翼T1执法记录仪体验评测
- 释放耳机无线潜能 飞傲UTWS3真无线耳放评测
- TikTok推出首个利用iPhone 12 Pro LiDAR技术的AR特效
- Looking Glass推出由全息成像技术打造的3D照片软件
- 20分钟电池回血大半!realme真我V15评测:1399元中端王炸全面升级
- 最壕“年终奖”出炉!雷军下血本:一次颁发两个百万美金技术大奖