「大数据文摘」如何在远程会议的时候静音吃薯片?微软团队用AI去除视频噪声( 三 )


将处理推向边缘端
让机器学习模型留在边缘端而不是云端还有一个原因:微软希望限制服务器的使用 , 有时 , 甚至一开始不用服务器 。 对于Microsoft Teams中的一对一呼叫来说 , 呼叫设置通过服务器进行 , 但实际的音频和视频信号数据包是直接在两个参与者之间发送的 。 对于组呼叫或计划会议来说 , 需要有一台服务器 , 但微软会将这台服务器上的负载降至最低 。 为每个呼叫执行大量服务器处理不光会增加成本 , 每个额外的网络跃点也会增加延迟 。 从成本和延迟的角度来看 , 在边缘端进行处理效率会更好 。
“你要确保将尽可能多的计算推送到用户端 , 因为这实际上并不会涉及任何成本 。 你已经有笔记本电脑、PC或是手机了 , 只不过要多做一些其他处理 。 只要你的CPU没过载 , 就没有问题~“Aichner说 。
当我指出 , 电池寿命 , 尤其是不在连接状态设备的电池 , 是其中一项成本时 ,Aichner这样说:“是啦 , 我们当然也关注到了这一点 , 我们可不想因为仅仅添加了一些噪声抑制功能就降低了设备的电池续航时间 。 这绝对是要满足的另一个需求 , 要确保不会在这一点上因小失大 。 ”
下载大小和未来
团队不能仅仅考虑可能失败 , 还要考虑到未来发展 。 因为我们现在讨论的是机器学习模型 , 所以工作是永无止境的 。
“我们正在努力去构建一种将来也具有灵活性的产品 , 因此在发布第一个功能后 , 我们不会止步于噪声抑制” , Aichner说 , ”我们想让它越来越好 。 也许对于一些噪声测试 , 现在表现还不尽如人意 , 但我们希望能够有能力去改进它 。 只要有性能提升 , Teams的用户一定就能下载到最新的模型 , 使用质量更高的产品 。 “
模型本身将以几兆字节的速度运行 , 但这不会影响客户端本身的大小 。 “这也是我们的另一个要求 , 当用户在手机、台式机或笔记本电脑上下载我们应用时 , 会想要最小化下载大小 , 你也会想要让人们尽快完成下载 。 “
Aichner还说:“‘只是为一些模型’在下载中增加兆字节是不可取的 , 当你安装完Microsoft Teams后 , 模型将会稍后在后台下载完成 。 这也使我们在将来变得更加灵活 , 可以做更多的事 , 建立更多不同的模型 。 ”
机器学习专业知识
所有以上这些都需要最后一个组成部分:人才 。
“你还需要有机器学习的专业知识 , 才能知道自己想对这些数据进行什么样的操作 , ”Aichner说 , “这就是为什么我们在这个智能通信小组中成立了机器学习团队的原因 , 我们需要知道应该如何处理这些数据的专家 。 什么是正确的模型?深度学习有着非常广泛的意义 , 你可以创建许多不同类型的模型 。 我们在世界各地有多个微软研究中心 , 有很多音频方面的专家 。 现在正与他们紧密地合作着 , 因为他们在深度学习领域有很多经验和知识 。 ”
数据是开源的 , 也是可以进行改进的 。 任何公司都可以轻松地利用公共云 , 包括主流的Amazon Web Services , Microsoft Azure和Google Cloud , 去完成大量必要的运算 。 因此 , 如果有另一家拥有视频聊天工具和合适的机器学习人才 , 他们是否能实现这一目标呢?
“或许可以吧 。 ”Aichner说 , “这和一些公司如何获得语音识别能力类似 , 他们需要有一个涉及到大量数据的语音识别器 , 还需要有很多专家去构建模型 。 因此 , 一些大公司正在做着 。 ”
【「大数据文摘」如何在远程会议的时候静音吃薯片?微软团队用AI去除视频噪声】Aichner认为 , 由于规模庞大 , 微软仍然具有很大的优势 。 “我认为价值在数据 , ”他说 , “我们将来要做的 , 就像你说的 , 有一个计划是微软的员工可以提供给我们足够多真实的Teams Calls数据 , 以便对客户的真实情况和所遇到的问题进行更好的分析 , 并对其进行更多定制化服务 。 “


推荐阅读