#环球网#苹果发布论文揭示 Siri 的秘密( 二 )


值得注意的是 , 《华盛顿邮报》近期委托进行的一项研究显示 , 谷歌和亚马逊生产的受欢迎的智能音箱听懂本土用户的语音比听懂非美式口音的概率高出了 30% 。
同时 , 像 Switchboard 这样的语料库也已经被证明对来自国内特定地区的使用者存在可测量的倾斜 , 这个语料库还是被 IBM 和微软等公司用来衡量语音模型错误率的数据集 。
针对这种情况 , 合著者将有关使用模式的知识整合到一个听写系统中 , 该系统能够为来自 60 多个地区的演讲者做出决策 。
其中 , 声学子模型将根据语音信号所传递的证据进行预测 , 而上下文感知预测组件则考虑了各种交互上下文信号 , 通过这两方面的预测 , 来选择最优的单语自动语音识别系统 。
据了解 , 上下文信号包含了有关发出听写请求的条件的信息 , 包括有关已安装的听写区域、当前选择的听写区域以及用户在发出请求之前是否切换了听写区域的信息 。
重要的是 , 它们有助于在语音信号太短的情况下 , 依靠声学模型产生一个可靠的预测 。 比如说 , 如果用户同时安装了英语和德语 , 像“naIn ”这样的短而模糊的语句 , 在德语中可能是否定的“nein” , 在英语中则是数字“nine” 。
另外 , 为了评估该系统 , 研究人员还开发了一种自定义指标 , 称为“平均用户准确度”(AUA , Average User Accuracy) , 他们认为这种指标能更好地反映模型中的“人口水平”使用模式 。
通过对多语言使用者的 128,000 个具有相应交互上下文信息的听写话语的内部语料库进行严格训练 , 它在所有语言组合中实现了平均 87% 的准确性 , 同时将最差情况下的准确性相对于基线提高了 60% 以上 。
此外 , 在团队调整参数以平衡准确性和延迟与在设备上运行模型的计算负载之后 , 平均延迟从 2 秒减少到 1.2 秒 , 而对 AUA 的影响不超过 0.05% 。
【#环球网#苹果发布论文揭示 Siri 的秘密】责编:黎晓珊


推荐阅读