「AI语音评测」技术简述与应用层级( 三 )
文章插图
仅提供发音回放功
层级二:提供用户发音评分
层级二是个巨大的进步 , 因为这一步进入了「AI」领域;用户将给定文本的发音上传至评测引擎 , 引擎将评测得分反馈至用户 , 除此之外再无其他反馈 。
在很多情况下这只是一个临时的解决方案(一般受研发能力或产品阶段目标的限制) , 但无论是产品过渡还是功能尝试都可能是当时最优解决方案 。
本层级用户体验:用户收到了量化的反馈 , 也可以感知到一些自身的进步 , 但用户仍不知道怎样从70分变成100分 。
文章插图
层级三:细粒度评分反馈
层级三是在层级二的基础上 , 增加了细粒度的评分反馈 。
包括以下粒度的评分:
- 每个音素的评分;
- 每个单音/单词中发音和声调的单项评分和整体评分;
- 如果是句子 , 包括完整、流利、发音、语调、断句等多个维度的评分 。
本层级用户体验:用户可以更精准定位到发音问题所在 , 但对于“纠正发音问题”还差一步 。
文章插图
层级四:细粒度指导反馈
层级四是在层级三的基础上 , 增加了更加细致精确的指导反馈 。
为了更好理解这种指导反馈 , 这里举两个例子:
① 单词示例:英语文本grandmother[?ɡr?nm?e?r] 。
如用户实际发音为[?ɡr?ndm??d?r] , 则可给出的指导反馈有:
层级三中所有的单词得分反馈 。
层级四优化的单词反馈:
- “[m]的发音前不应该有[d]”;
- “[?]的发音不应该读成[??]”;
- “[e]的发音不应该读成[d]”;
② 句子示例:英语文本「I want to go to school.」 。
如用户实际发音为「I…want…to go go?」 , 则可给出的指导反馈有:
层级三中所有的句子得分反馈 。
单词示例①中单词示例的每一个单词音素的反馈 。
层级四优化的句子反馈:
- 完整度:遗漏词汇—to & school , 复读词汇—go;
- 语调:应该为降调 , 不应该为升调;
- 流利度:语速过慢 , 应加快速率;
- 断句:停顿过长—I和want之间 , want和to之间;
本层级用户体验:用户已经可以精确定位问题并且得到具体解决方法;但目前为止依旧还是文字式的反馈 , 无论用户是否懂得音素(音标) , 自然语音的反馈无疑更加容易接受 。
层级五:TTS结合
【「AI语音评测」技术简述与应用层级】层级四在语音评测指导反馈方面几乎达到了顶级 , 再结合自然语音的反馈会更加契合口语学习的场景 。
TTS技术简述:TTS(Text To Speech , 文本转语音)是语音合成应用的一种 , 它将文字或者文件转换成自然语音输出 , 主要的技术框架包括“MARY”、“SpeakRight Framework”、“Festival”、“FreeTTS”等 。
在层级四中 , 我们举例了英语单词grandmother[?ɡr?nm?e?r]误读为[?ɡr?ndm??d?r]的情况 。
结合TTS技术后 , 我们可以给出以下自然语音提示:
- 自然语音:“[m]前不应该有[d] , 请注意这个d不发音”;
- 自然语音:“[?]不应该读成[??] , 请注意长大嘴巴 , 不要发长音”;
- “横屏旗舰”iQOO 7评测:在极致体验的赛道上一路狂奔
- 搭载天玑1000+ 荣耀V40来了!赵明:一如既往坚持技术创新
- 红米k40pro和iqooneo3哪个好性价比高 参数对比区别评测
- 恩杰KRAKEN X73 RGB评测:颜值升级无穷尽
- 可靠实用的最佳拍档 法翼T1执法记录仪体验评测
- 释放耳机无线潜能 飞傲UTWS3真无线耳放评测
- TikTok推出首个利用iPhone 12 Pro LiDAR技术的AR特效
- Looking Glass推出由全息成像技术打造的3D照片软件
- 20分钟电池回血大半!realme真我V15评测:1399元中端王炸全面升级
- 最壕“年终奖”出炉!雷军下血本:一次颁发两个百万美金技术大奖