DeepTech深科技@伯克利团队提出一种更“聪明”的机器人导航系统,无需任何模拟或人工监督( 二 )


DeepTech深科技@伯克利团队提出一种更“聪明”的机器人导航系统,无需任何模拟或人工监督
文章图片
图|随机控制策略的命令角速度和线速度的示例图 , 该策略用于收集数据(来源:Berkeley)
然后 , BADGR会处理原始的采样数据 , 并为特定的导航事件计算标签 , 在这项实验中 , 研究人员考虑了三个不同的影响事件:碰撞、颠簸和位置 。
发生碰撞事件的原因是当在城市环境中 , 激光雷达测量到接近障碍物时 , 或者在越野环境中 , 当IMU检测到线性加速度和角速度幅值突然下降时 , 就会发生这种情况;当由IMU测量的角速度幅度高于某个阈值时 , 将发生颠簸事件;位置由车载状态估计器确定 , 该估计器将车轮里程表和IMU融合在一起以形成局部位置估计 。
BADGR会遍历数据 , 在每个时间步长计算事件标签并将这些事件标签添加回数据集之中 , BADGR随后可以训练模型以预测哪些动作导致了哪些导航事件 。
图|BADGR深度神经网络预测模型的插图 , 这是其自主导航策略的核心(来源:Berkeley)
BADGR深度神经网络预测模型将当前的摄像机图像和未来计划的动作序列作为输入 , 并输出对未来相关事件的预测(例如机器人是否会在颠簸地形上碰撞或行驶) 。
此外 , 在部署BADGR时 , 研究人员定义了一个奖励函数 , 该函数对他们希望机器人完成的特定任务进行编码 。 例如 , 奖励函数可以鼓励在阻止碰撞或在颠簸不平的地形上行驶的同时朝目标前进 。 然后 , BADGR使用训练有素的预测模型、当前图像观察和奖励功能来计划使奖励最大化的一系列动作 。 BADGR在计划和执行之间交替 , 直到任务完成到达目标 。
新的导航策略效果怎么样?拉出来比试一下 。 研究人员将BADGR与使用光学雷达的无冲突路径的SLAM+P导航策略进行了比较 , 而BADGR仅使用摄像头图像识别 , 对比结果体现出了两大优势 。
测试一 , 在城市环境中避免碰撞和颠簸地形到达目标GPS位置的任务 。 尽管基于几何的策略最终也成功地完成了任务 , 但是它未能避免减少颠簸的情况 。 BADGR成功地达到了目标 , 并通过在铺有路面的道路上行驶成功避免了颠簸的地形 。 值得注意的是 , 研究人员从未告诉机器人要在平面道路上行驶 , BADGR从车载摄像头图像中自动获悉 , 在混凝土路径上行驶比在草地上行驶更平稳 。
视频|BADGR在城镇地形和越野地形中的自主导航优势(来源:Berkeley)
测试二 , 在越野环境中达到指定GPS位置的任务 。 SLAM+P策略错误地将草丛标记为不可穿越的障碍 , 因此就地旋转以尝试找到可穿越的路径 , 但在旋转并未能检测到任何可穿越的路径后 , 机器人被困难以前行 。 相比之下 , BADGR方法从经验中学到了 , 有些高草确实是可以穿越的 , 因此能够成功地将机器人继续导向目标 , 没有错误地认定草丛是障碍 , 这是因为BADGR从经验中学到 , 大多数草丛实际上都是可遍历的 。
除了能够了解环境的物理属性之外 , BADGR的一个关键方面是它能够不断自我监督并在收集越来越多的数据实时改进模型 。 为了证明这种能力 , 研究人员进行了一项对照研究 , 其中BADGR收集并训练来自一个区域的数据 , 然后移动到新的目标区域 , 在该区域初次导航失败 , 但随后在收集并训练了新区域的其他数据之后 , 最终成功完成任务 。
DeepTech深科技@伯克利团队提出一种更“聪明”的机器人导航系统,无需任何模拟或人工监督
文章图片
图|随着收集更多数据 , BADGR的智能化不断提高(来源:Berkeley)
该实验不仅证明BADGR在收集更多数据后可以改善 , 而且当BADGR遇到新环境时 , 以前收集的经验实际上可以加速学习 。 随着BADGR在越来越多的环境中自动收集数据 , 成功学习每种新环境中的导航所需的时间将越来越少 。
BADGR给出的关键见解是 , 通过直接从现实世界中的经验中自主学习 , BADGR可以了解导航能力 , 随着收集更多数据而不断完善 , 并推广到其他新的环境 。 研究人员认为BADGR是朝着完全自动化、自我完善的导航系统迈出的有希望的一步 , 尽管仍然存在许多未解决的问题 , 比如:机器人如何在新环境中安全地收集数据?在线适应新的数据流?应对非静态环境 , 例如有人走动?


推荐阅读