路通|学会阅读街上人们的肢体语言,自动驾驶车通过动作捕捉


路通|学会阅读街上人们的肢体语言,自动驾驶车通过动作捕捉
文章图片
大数据文摘出品
来源:IEEEspectrum
编译:lin
想象一下 , 工人正在修复路面上一个大坑洞 , 因此拥有四条车道的马路缩小为两车道 。 一名工人左手松松地举着停车标志 , 用右手挥手示意汽车通过 。 如果是人来开车的话 , 自然不会考虑是否要遵循手势或标志 , 而是会平稳前进 。
然而 , 这种情况可能会让自动驾驶汽车停下来 。 它会理解停止的标志并停下来 , 但是那个手势呢?这对于自动驾驶系统来说要复杂得多 。
在这些情况下 , 解读肢体语言是关键 。
所以 , 要想在不影响交通流量的情况下 , 安全、无缝地应对这些挑战 , 就需要自动驾驶系统了解用于引导人类司机应对意外情况的常见手势 , 以及行人处理事情时的手势和肢体语言 。
世界各地的自动驾驶汽车开发人员多年来一直致力于让自动驾驶汽车至少理解一些基本的手势 , 最初的重点是自行车手发出的信号 。 一般来说 , 开发人员依靠机器学习来提高车辆识别现实环境并了解如何应对的能力 。
Cruise , 一家为城市设计自动驾驶汽车服务的初创公司 , 他们从200多辆自动驾驶汽车中收集数据 。 在过去的七年里 , 这些汽车每年行驶数十万英里;在疫情爆发之前 , 它们昼夜不停地在路上行驶 , 只有在充电(他们的汽车是全电动的)和定期维护时才会休息 。 我们的汽车学习速度很快 , 因为它们正在旧金山的丘陵街道上行驶 , 旧金山是美国最复杂的驾驶环境之一 。
但他们意识到 , 机器学习模型并不总是有足够的训练数据 , 因为汽车在现实世界中体验重要手势的次数不够多 。 汽车需要从不同的角度、不同的距离以及在不同的光照条件下识别出每一种情况——这些限制因素的组合产生了大量的可能性 。 如果仅仅依靠汽车的真实体验 , 将需要数年时间来获得这些事件的足够信息 。
他们在Cruise找到了一个创造性的解决方案:人类手势的动作捕捉(mo-cap) , 一种游戏开发者用来创造角色的技术 。 Cruise一直在雇佣游戏开发者 , 以获得模拟详细世界的专业技能 , 他们中的一些人则承担起捕捉数据的挑战 , 以便教他们的车辆理解手势 。
首先 , 他们的数据收集团队会建立一份完整的清单 , 列出人们使用身体与世界和他人互动的方式 , 比如打出租车 , 走路时打电话 , 或者走到街上躲避人行道施工 。 从自动驾驶汽车可能会误解为指令本身的动作开始——例如 , 行人向朋友挥手 。 接着 , 他们又做了其他一些靠近车辆但不是针对它的手势 , 比如停车人员在车辆旁边的车道上挥手示意车辆开进车库 , 建筑工人举着要求车辆暂时停车的牌子 。
路通|学会阅读街上人们的肢体语言,自动驾驶车通过动作捕捉
文章图片
最终 , 他们提出了一个用手势传达的五个关键信息的初始列表:停、走、左转、右转 , 以及我们常说的“不”——也就是那些与过路车辆无关的常见动作 , 比如自拍或取走背包 。 研究人员使用了普遍接受的美国手势 , 假设汽车会在右边行驶 , 因为他们是在旧金山进行测试 。
当然 , 人们用来发送这些信息的手势并不是统一的 , 所以研究人员从一开始就知道他们的数据集必须包含远不止五个例子 。 到底有多少 , 他们不确定 。
创建这个数据集需要使用动作捕捉技术 。 有两种类型的mo-cap系统:光学和非光学 。 光学版的mo-cap使用分布在一个巨大网格状结构上的相机 , 这个结构围绕着一个舞台;来自这些摄像机的视讯流可以用来三角定位演员穿着的全身套装上的视觉标记的3D位置 。 该系统有几种变体 , 可以产生非常详细的捕捉 , 包括那些面部表情 。 这种技术允许电影演员扮演非人类角色 , 比如2009年的电影《阿凡达》 , 也允许游戏行业记录运动员的动作 , 以开发以体育为主题的电子游戏 。


推荐阅读