IT世界|CMU研究员让机器人学会了听音辨物，不止视觉作者|蒋宝尚

编辑|陈大鑫
在机器人技术中，虽然我们已经在视觉和触觉方面取得了巨大的进步，但是对声音的研究一直稍有欠缺。
近日，来自卡内基梅隆大学的研究员们，首次对声音和机器人动作之间的相互作用进行了大规模研究。
Tilt-Bot本质上是个托盘机器人，由多个关节的机械臂、托盘和固定装置组成，托盘四周有边框，上面贴着用于记录物体撞击的声波捕捉装置。
如上图所示，托盘的正上方还固定了一个摄像头，用于捕捉物体运动轨迹，后期再与声音变化相匹配。
实验时，研究人员会把不同的物体放到托盘中，机械臂随后开始向前后左右倾斜，托盘中的物体也随之移动。
如果倾斜过大，物体就会撞到边框并发出响声，撞击力度越大，捕捉到的声波波峰也就越高。
【IT世界|CMU研究员让机器人学会了听音辨物，不止视觉】因此，受过训练的机器人只需要分析物体滑动和撞击的声音记录，就可以区分不同物体。另外，作者在论文中提到，即使同是金属质地的螺丝刀和扳手也可以成功分辨，总体成功率接近80% 。
值得一提的是，作者在实验过程中，根据收集的信息还创建了包含60个物体， 15,000个交互（碰撞等）的声音-动作-视觉数据集。数据收集过程如下动图所示：
其中，第一个观察意味着：仅仅根据一个物体发出的声音，一个AI学习模型就可以从60个物体中以79.2%的准确率识别该物体；第二个观察意味着，通过声音， AI学习模型就可以预测外力对该物体施加了什么动作；第三个观察意味着，通过声音可以测试物体隐含的物理特性。
以上三个观察，作者用了三种研究方法进行证明。
1研究方法
为了理解和研究声音与动作的协同作用，卡内基梅陇大学的研究人员重点研究了三大类学习任务：1、细粒度分类(或实例识别)；2、逆向模型学习；3、下游正向模型学习（downstreamforward-modellearnin）。
其中，在细粒度识别任务中，一般是用视觉图像作为输入来完成的。在作者的论文中，主要是以音频作为输入研究“声音”中包含什么样的信息。
具体而言，对于作者TiltBot数据集中的60个物体，作者先创建一个包含80%数据的训练集和一个包含20%数据的测试集。
然后，作者训练一个简单的CNN ，只把音频信息作为输入，并输出产生声音的对象的实例标签。这个架构类似于下图?

IT世界|CMU研究员让机器人学会了听音辨物，不止视觉

推荐阅读

中国科学院|宁波材料所在无机钙钛矿电池研究中获进展

雪纺裙|真不敢相信谭松韵已经30多岁了，面对“真实镜头”，也很少女

怎样界定普通朋友、好朋友和非常好的朋友

紧身|路人街拍：好看的紧身牛仔裤小姐姐，尽显女性的曼妙身姿！

念寒娱评|有可能遇到真爱，也有可能会跟王宝强复婚，马蓉突然连发三个爱心

有人有坐邮轮出行的经验嘛这个貌似逼格太高，周围的朋友都没有去过，想给女朋友一个惊喜，求推荐线路

全民车市|直接躺在地上，女司机做法让人气愤，小区保安阻拦女司机

穿搭|新发现这轻奢风女装穿搭，秀场款的设计感，小众不失优雅

掘金|输掉一场不用慌！掘金还手握三优势，应对得当翻盘湖人不是没机会

春晚上的变形机器人，才是他圆梦路上的第一站

海外网|《日本之耻》当事人起诉网络诽谤者：在我们这一代终结网络暴力

21Tech|12来了！但苹果却尾盘跳水，原因或许是这个，首款5G苹果机iPhone

缺血吃什么补血好吃什么补血最好最快

九个月@九个月宝宝睡觉时间

春天在田野里,田野里的什么?在田野里的春天是什么样子的

『空气』黑龙江省解读“这波重污染咋来的？” 下周二或迎好空气

荣耀30与华为P40怎么选？你得看懂看华为与荣耀的品牌差异

杭州|控制风险考虑，多家银行暂停账户铂金、钯金开仓交易

电音和autotune的区别

3DM游戏网|尾田也要滑铁卢？正版3D动作手游《航海王热血航线》发布最难入团测试