苹果再发多模态论文！陪我们走过十年的“Hey Siri”会被更智能的交互方式取代吗？ _多模态

编辑 | 伊风
出品 | 51CTO技术栈（微信号：blog51cto）

全面发力AI的苹果，再出新研究！

随着人工智能技术的发展，我们熟悉的“Hey Siri”或将成为历史。

苹果团队最新出炉的论文《利用大型语言模型进行设备指向性语音检测的多模态方法》，集中于这一问题的研究：不使用“Hey Siri”这样的特定短语触发智能语音助手，可行吗？

结果是：有希望。苹果推出的多模态系统在设备指向性语音检测任务上的错误率比单一模态（文本或音频）的模型要低，分别降低了最多39%和61% 。并指出，未来将在音频字幕和声学场景分类等领域发力，提供更好的虚拟助手交互体验。

现在，人们与GPT、Kimi的聊天愈发轻松。相较而言，与Siri、智能音箱等语音助手的交互还比较机械，它们好像也经常“get”不到我们的意思。

这一次的AI赋能，或许到了语音助手们的show time了。
1.苹果的论文说了什么？

与虚拟助手的交互通常以一个预定义的触发短语开始（Hey Siri），然后才是用户的命令内容。

为了使与助手的交互更加直接自然，放弃触发短语直接开始交互是一种优化思路。为了验证这个思路的可行性，研究人员使用智能手机捕获的语音以及背景噪音的声学数据训练了一个大型语言模型。

研究人员写道，该模型部分建立在一个版本的OpenAI的GPT-2之上，“因为它相对轻量级，有可能在智能手机等设备上运行” 。

论文描述了用于训练模型的超过129小时的数据和额外的文本数据，但没有指定进入训练集的录音来源。

这项研究尝试利用非文本信号来增强 LLM，以解决在真实生活场景中，背景噪声和语音重叠带来的识别问题。在文本信息之外，这项研究使用了各种多模态信息，包括从预训练音频编码器中获得的声学特征，以及 1-best 假设和语句级解码器信号，来自 ASR 系统的声学成本和图形成本。

通过对所有模态进行联合学习，对系统进行微调，设备可以更加聪明地决定是不是要启动“Siri”（见下图）。

文章插图
图片
研究表明，苹果提出的新模型能够比仅使用音频或文本的模型做出更准确的预测，并且随着模型规模的增大而进一步提高。除了探索研究问题之外，目前尚不清楚苹果是否计划取消“Hey Siri”触发短语。

这项研究已上传至Arxiv（但尚未经过同行评审，想要阅读完整论文的朋友可以移步：https://ieeexplore.ieee.org/document/10446224）。
2.六位苹果作者，一半来自Siri
七位作者中有六位隶属于苹果公司，其中三位在Siri团队中工作。