机器人■伯克利团队提出一种更“聪明”的机器人导航系统( 二 )


此外 , 设计数据收集策略时的第二个考虑因素是确保充分探索环境 , 同时还要确保机器人执行在测试时实际希望执行的动作序列 。 单纯的统一随机控制策略是不够的 , 因为由于机器人的线性和角速度作用界面 , 机器人将主要驱动直线行驶 , 这将导致探索不足和不切实际的测试时间动作序列 。因此 , 团队使用时间相关的随机游走控制策略来收集数据。
机器人■伯克利团队提出一种更“聪明”的机器人导航系统
本文插图

图|随机控制策略的命令角速度和线速度的示例图 , 该策略用于收集数据(来源:Berkeley)
然后 , BADGR会处理原始的采样数据 , 并为特定的导航事件计算标签 , 在这项实验中 , 研究人员考虑了三个不同的影响事件:碰撞、 颠簸和位置 。
发生碰撞事件的原因是当在城市环境中 , 激光雷达测量到接近障碍物时 , 或者在越野环境中 , 当IMU检测到线性加速度和角速度幅值突然下降时 , 就会发生这种情况;当由IMU测量的角速度幅度高于某个阈值时 , 将发生颠簸事件;位置由车载状态估计器确定 , 该估计器将车轮里程表和IMU融合在一起以形成局部位置估计 。
BADGR 会遍历数据 , 在每个时间步长计算事件标签并将这些事件标签添加回数据集之中 , BADGR 随后可以训练模型以预测哪些动作导致了哪些导航事件 。
机器人■伯克利团队提出一种更“聪明”的机器人导航系统
本文插图

图|BADGR 深度神经网络预测模型的插图 , 这是其自主导航策略的核心(来源:Berkeley)
BADGR 深度神经网络预测模型将当前的摄像机图像和未来计划的动作序列作为输入 , 并输出对未来相关事件的预测(例如机器人是否会在颠簸地形上碰撞或行驶) 。
此外 , 在部署 BADGR 时 , 研究人员定义了一个奖励函数 , 该函数对他们希望机器人完成的特定任务进行编码 。 例如 , 奖励函数可以鼓励在阻止碰撞或在颠簸不平的地形上行驶的同时朝目标前进 。 然后 , BADGR 使用训练有素的预测模型、当前图像观察和奖励功能来计划使奖励最大化的一系列动作 。
BADGR 在计划和执行之间交替 , 直到任务完成到达目标 。
新的导航策略效果怎么样?拉出来比试一下 。 研究人员将 BADGR 与使用光学雷达的无冲突路径的 SLAM + P 导航策略进行了比较 , 而 BADGR 仅使用摄像头图像识别 , 对比结果体现出了两大优势 。
【机器人■伯克利团队提出一种更“聪明”的机器人导航系统】测试一 , 在城市环境中避免碰撞和颠簸地形到达目标 GPS 位置的任务 。 尽管基于几何的策略最终也成功地完成了任务 , 但是它未能避免减少颠簸的情况 。 BADGR 成功地达到了目标 , 并通过在铺有路面的道路上行驶成功避免了颠簸的地形 。 值得注意的是 , 研究人员从未告诉机器人要在平面道路上行驶 , BADGR 从车载摄像头图像中自动获悉 , 在混凝土路径上行驶比在草地上行驶更平稳 。
测试二 , 在越野环境中达到指定GPS位置的任务 。 SLAM + P策略错误地将草丛标记为不可穿越的障碍 , 因此就地旋转以尝试找到可穿越的路径 , 但在旋转并未能检测到任何可穿越的路径后 ,机器人被困难以前行 。 相比之下 , BADGR方法从经验中学到了 , 有些高草确实是可以穿越的 , 因此能够成功地将机器人继续导向目标 , 没有错误地认定草丛是障碍 , 这是因为BADGR从经验中学到 , 大多数草丛实际上都是可遍历的 。
除了能够了解环境的物理属性之外 , BADGR 的一个关键方面是它能够不断自我监督并在收集越来越多的数据实时改进模型 。 为了证明这种能力 , 研究人员进行了一项对照研究 , 其中BADGR收集并训练来自一个区域的数据 , 然后移动到新的目标区域 , 在该区域初次导航失败 , 但随后在收集并训练了新区域的其他数据之后 , 最终成功完成任务 。


推荐阅读