IT世界|CMU研究员让机器人学会了听音辨物，不止视觉( 二 ) 作者|蒋宝尚

在逆学习模型的任务中，主要解决“物体动作识别”任务。另外，此模型研究的是声音是否包含有关行为、动作的因果信息。
在问题设置中，模型将物体交互（物体碰撞等动作）之前和之后的观测作为输入，具体而言交互之前物体的图像，以及交互期间产生的声音，模型输出的是交互期间的动作。由于逆模型学习可以在以前未见过的物体上进行测试，因此作者在论文中提到，此模型不仅可以在训练中测试音频特征的泛化，而且还可以在新对象上测试音频特征的泛化。
在前面两个问题中，我们已经看到声音确实包含细粒度实例和动作的因果关系的信息。但是用什么样的损失函数训练适用于多个下游任务的音频嵌入呢？
一种方法是在Tilt-Bot数据上训练实例识别任务上的嵌入，而另一种选择是在逆模型任务上进行训练。这两个任务都编码不同形式的信息，其中分类编码对象的可识别属性，反向模型编码对象的物理属性。
但是，作者从多任务学习的工作中得到了启发，训练了一种联合嵌入，可以同时对分类和动作信息进行编码。
另外，作者在论文中还提到，理解音频嵌入中包含的信息还有一种方法，即给定输入对象实例的前三个最近（最相似）的对象实例。例如，将长螺丝刀与长蝴蝶刀相匹配；将黄色物体与其他颜色物体相匹配。如下图的TSN特征图所示，进一步证明了相似的物体是如何接近的，而物理上不同的物体是如何相距较远的。
而在卡内基梅隆大学的这项工作中，具体是通过把探测交互产生的声音，用作表示对象的潜在参数。
2总结
卡内基梅隆大学的“听音辨物”工作主要有三个贡献：
第一，创建了最大的声音-动作-视觉机器人数据集；
第二，证明了可以使用声音进行细粒度的物体识别；
第三，证明了声音是动作的指示器。

IT世界|CMU研究员让机器人学会了听音辨物，不止视觉( 二 )

推荐阅读

新剑侠情缘|《新剑侠情缘》明尊济世！明教属性搭配

大众网|青岛市雕塑馆恢复开馆现活力时尚，雕塑园写生+艺术家直播带展

做鸡肉蒸豆腐，记住"2用1窍门"，鸡肉鲜亮，豆腐滑嫩，超入味

部位|买羊肉时，只挑3个部位买，肉贩子心里直犯嘀咕好肉都被挑走了

烹饪|梭子蟹的诱人做法，只需掌握这几步，喷香美味，大人小孩都爱

叶全真|“清纯小白花”叶全真，演苦情戏而出道，年过五十仍单身！

JK制服是什么梗？

「大米」超市那么多米，哪种好？1分钟告诉你5星级大厨怎么挑好大米

红尖椒文化|魏秋月晒出合照，网友：张娜胖成“土豆”了，曾经女排奥运冠军

|为什么说“灰色强奸”更可怕？跟“强奸”有何不同？

手机中毒者 12Pro Max售价7万，买不起、买不到，这款iPhone

环球网|刚刚，美国再创新高！

MAC地址克隆的真正用处 mac地址克隆

云空间是什么有什么用云空间干什么用是什么意思

山东商报|警惕！济南惊现“套路租”，百余房客交了房租，房东却来赶人

中国社会科学网|高质量推进创新型经济体建设

「木木讲军事」揭以色列水利设施遭网络战攻击的幕后“元凶”

经期可以喝红糖水吗

扬子晚报|个别休闲食品店违规销售卤菜执法部门责令停售整改

【中国那些事儿】民营火箭首次成功入轨外媒：中国航天业正在实