#环球网#苹果发布论文揭示 Siri 的秘密
苹果公司的跨平台 Siri 虚拟助手在全球有着超过 5 亿用户 , 显然 , 语音识别是苹果感兴趣的重要领域之一 。 上周 , 苹果公司发表了一系列预印本研究论文 , 就如何改进语音触发检测和说话人验证 , 以及多说话人的语言识别技术进行了研究 。
文章图片
扬声器验证和语音触发检测
在第一篇论文中 , 一组苹果研究人员提出了一个训练过的人工智能模型 , 这个模型既能执行自动语音识别任务 , 也能执行说话人识别任务 。
正如他们在摘要中所解释的 , 语音助手识别的命令通常以触发短语(例如 , “嘿 , Siri”)为前缀 , 检测这个触发短语涉及两个步骤 。
首先 , 人工智能必须判断输入音频中的语音内容是否与触发短语的语音内容相匹配(语音触发检测);其次 , 人工智能必须判断说话者的语音是否与注册用户或用户的语音相匹配(语音验证) 。
通常情况下 , 这两项任务都是被独立考虑的 。 但有合著者假设 , 对语音发起者的了解可能有助于推断出声音信号中的语音内容 , 反之亦然 , 这将有助于对这两种属性进行评估 。
对此 , 研究人员设计了三套能够学习语音和说话人信息的模型 , 并对一组数据进行训练 , 这些数据包含超过 16000 小时的带注释的样本 , 其中 5000 小时的音频有语音标签(其余的为说话人标签) 。
不仅如此 , 还有超过 100 名受试者使用智能扬声器设备在一系列声学设置中为语料库做出贡献 , 包括安静的房间、来自房间内电视或厨房设备的外部噪音 , 以及录音机以大音量播放音乐 。
值得一提的是 , 来自电视、广播和播客的 2000 小时不包含触发短语的连续音频记录也被添加进来 , 以此来测量“误报”率 。
这些模型显示出了学习语音和说话人信息的能力 , 同时在相同数量的参数下(控制训练过程某些属性的变量) , 每个任务的准确性至少与基线模型相同 。
事实上 , 在提出的三种模型中 , 有一种在“多重”设置下的表现优于说话者验证基线 , 在文本无关的任务中相对于基线提高了 7.6% 。
研究人员认为 , 这样的实验结果是十分有趣的 , 因为这些模型是使用不相关的数据集训练的 , 也就是说 , 每个音频样本要么有语音标签 , 要么有说话人标签 , 从来没有两者都有 。
通过对结果的观察 , 研究人员提出了一种灵活的设计 , 通过连接不同的任务的训练数据 , 而不是为每个训练示例获取多个标签 , 从而在多个相关任务上训练模型 。 从实用的角度来看 , 这样能够在两个任务之间共享计算可以节省设备内存、计算时间或延迟 , 以及消耗的电量/电池 。
错误触发缓解
在研究中 , 有一项补充研究减少了错误触发的发生 , 也就是说 , 语音助手有意地忽略了像 Siri 这样的语音助手的语音 。
研究人员表示 , 他们使用了图形神经网络(GNN) , 这是一种操作在图形结构上的人工智能模型 , 其中每个节点都与一个标签相关联 , 目标是在没有基础事实的情况下预测节点的标签 。
在论文中 , 研究人员写道:
语音触发的智能助手通常在开始监听用户请求之前就会检测到一个触发短语……错误的触发通常来自于背景噪音或听起来类似于触发短语的语音 。 因此 , 减少误触发是构建以隐私为中心的非侵入性智能助手的一个重要方面 。在未来的工作中 , 该团队计划将基于GNN 的处理扩展到其他任务 , 例如用户意图分类 。
多语种说话人识别
在另一篇论文中 , 苹果研究人员探索了一种针对多语言使用者量身定制的说话人语言识别系统 。
他们表示 , 语音识别系统对大多数语言都有很高的准确性 。 但是 , 当有多重语言出现时 , 这个语言识别系统的表现就不尽如人意了 。 因此 , 基于这样的实施情况 , 研究人员决定开展说话人语言识别系统的工作 。
推荐阅读
- 江苏高考■江苏省发布《2021年普通高校招生考试安排和录取工作实施方案》
- 地区:局部地区将有暴雪 江苏发布低温报告和大风警报
- “厉行节约反对浪费”主题设计公益活动成果发布
- 北京发布寒潮蓝色预警:最低气温下降8℃以上
- 注意防范!北京发布大风蓝色预警信号
- 甘肃发布冷链食品防控指南:冷链从业人员每周一次核酸检测
- 长三角高质量一体化发展指数发布
- 绕行■南京警方发布国家公祭日交通绕行提示
- 成都大运会:残疾人公益手作大运特许商品正式发布
- 湖北发布首批21项《楚菜标准》