「大数据文摘」如何在远程会议的时候静音吃薯片?微软团队用AI去除视频噪声


「大数据文摘」如何在远程会议的时候静音吃薯片?微软团队用AI去除视频噪声
本文插图
大数据文摘出品
编译:白浩然、DD、Andy
上个月 , Microsoft宣布 , 其与Slack , Facebook Workplace以及Google的Hangouts Chat的竞争对手Teams的每日活跃用户已超过4400万 。 这一里程碑却掩盖了其“稍后”发布的一些新功能 。 大部分功能都很简单明了:举手功能表明你有话要说;离线和低带宽支持 , 即使在网络连接不畅或没有网络情况下 , 也能阅读聊天消息并回复;以及将聊天弹出到一个单独窗口 。 其中还有一项实时噪声抑制功能吸引了大家眼球 -Microsoft演示AI如何在通话过程中减少让人分心的背景噪声 。
我们都有过类似经历:视频时多少次让某人打开静音 , 或是找个安静的环境?实时噪声抑制功能将过滤掉会议中某人的键盘打字声 , 薯片袋的悉索声和正在用的吸尘器声 。 AI将实时消除背景噪音 , 让你只在通话中听到语音 。 那它究竟是怎么做到的呢?为了找到答案 , VB与Microsoft Teams小组项目经理Robert Aichner进行了访谈 。
随着新冠病毒危机迫使数百万人在家学习和工作 , 协作和视频会议工具的使用呈爆炸式增长 。 Microsoft正在将Teams作为其Microsoft 365订阅套件的一部分 , 推动成为针对企业和消费者的解决方案 。 该公司依靠其机器学习领域优势来确保AI功能是其最大特色之一 。 当它最终发布时 , 实时背景噪声抑制功能将为充满噪声的企业和家庭带来福音 。 此外 , Microsoft构建此功能的方式还对其他用机器学习的公司具有指导意义 。
固定噪声与非固定噪声
当然 , 多年来Microsoft Teams , Skype和Skype for Business还有其他通信工具和视频会议应用程序中一直存在噪声抑制功能 。 但那些噪声抑制只能消除固定噪声 , 例如在背景中运行的电脑风扇声或空调声 。 传统的噪声抑制方法是在说话停顿时 , 估计噪声的基准 , 并假设连续的背景噪声不会随时间而变化 , 然后将其过滤掉 。
Microsoft Teams则更进一步 , 将抑制非固定噪音 , 例如狗吠或关门声 。 “那不是固定的 , ”Aichner解释说 。 “一般对于这类噪声你没法在说话停顿时估计 。 但现在机器学习就可以让你创建具有大量代表性噪声的训练集来进行训练 。 ”
实际上 , Microsoft今年早些时就在GitHub上公开了其训练集 , “以促进该领域研究的发展 。 ”虽然第一个版本已公开可用 , Microsoft依然在积极致力于扩展数据集 。 公司发言人证实 , 作为实时噪声抑制功能的一部分 , 数据集中的某些类别的噪声并不会在通话中被过滤 , 包括乐器 , 笑声和歌声 。
微软不能单纯地分离出人的声音 , 因为有些噪音也有相同的频率 。 在语音信号的频谱图上 , 有些噪声不光出现在说话间隙 , 还会与说话本身重叠 。 因此 , 过滤掉噪音几乎是不可能的 – 因为语音和噪音存在重叠 , 而两者无法区分 。 取而代之的是 , 你需要先训练一个网络知道噪声和语音都是什么样的 。
语音识别和噪声抑制
为了阐明观点 , Aichner将用于噪声抑制的机器学习模型与用于语音识别的机器学习模型进行了比较 。 对于语音识别的模型 , 你需要录下大量用户对着麦克风讲话的语料 , 并通过记录语料内容的方式人工标记这些数据 。 与将麦克风输入映射到文字不同 , 噪声抑制关注于将嘈杂的语音转变为纯净的语音 。
Aichner说:“我们训练了一个模型来理解噪音和语音之间的差异 , 然后该模型试图仅仅保留语音 。 ”“我们有训练数据集 , 其中收集了数千种不同的人声和100多种噪音类型 。 然后要做的是将没有噪音的干净语音与噪音混在一起 , 这样就模拟了麦克风信号 。 接着 , 我们还向模型提供干净语音作为标注数据 。 就好像你告诉模型 , “请从这些嘈杂的数据中提取出干净信号 , 和标注数据一样 。 这就是在监督学习中训练神经网络的方式 , 你得有一些标注数据 。 ”


推荐阅读