环球车讯网|FSD Rewrite:特斯拉的模仿游戏( 二 )


同样在当天会议中 , 马斯克还提及了一个现实问题:全世界的道路都是为人类驾驶而设计的 。
在这两番言论背后其实可以感受到这么一层隐含的意思:驾驶是人类行为 , 道路是为人类设计 , 如果能具备和人类一样的感知与驾驶逻辑 , 那这就是一套通用的自动驾驶方案 。
某种程度上 , 特斯拉就是这么做的 。
「视觉是最好的感知」
马斯克多次在公开场合表现出对激光雷达为主的自动驾驶感知方案的不屑 。
因为通过雷达 , 你只能知道那儿有个东西 , 但你无法知道它是什么 , 它就像一个盲杖 。
他甚至都不看好激光雷达在自动驾驶领域的价值 。
「expensive、unnecessary」 , 在马斯克看来 , 激光雷达之于辅助驾驶仿佛买一台 RED 做监控摄像头 , 昂贵且没有必要 。
「They're all gonna dump Lidar, mark my words.」这是他在自动驾驶日上的原话 。
作为视觉感知方案上配置最复杂也是路线最为激进的企业 , 特斯拉目前所有在售特斯拉车型都搭载了 6 个方向的 8 颗摄像头 。
马斯克认为 , 视觉是信息密度以及信息量最大的驾驶感知途径 。 灯光、颜色、二维图案、物体类型等众多信息都包含在视觉里 , 人类靠视觉就可以完成驾驶 。
道理虽然如此 , 但 Robotaxi 行业的专业自动驾驶玩家却几乎都采用了激光雷达方案 。 而就 FSD 改版前所展现出的能力也的确撑不起马斯克的「视觉至上」言论 。
那马斯克的路线错了吗?
现在这个节点上 , 我并不这么认为 。 因为特斯拉在老版本 FSD 上对于视觉感知能力的挖掘离马斯克的想法或者说离人眼感知水平的差距还有十万八千里 。 视觉路线是有说服力的 , 只是特斯拉的完成度还不够 。
事实似乎也证明了这点 。 在没有任何的硬件改动升级下 , FSD Beta 此次在视觉感知层面展现出了跨越级的惊人进步 。
不过 , 这背后到底发生了什么?
神经网络下的升维视觉
今年 2 月的 ScaledML2020 (Scaled Machine Learning Conference)会议上 , 特斯拉 AI 高级总监 Andrej Karpathy 用他一贯快到起飞的语速花了 30 分钟介绍特斯拉的自动驾驶内容 , 其中的第三个章节叫「Bird's Eye View networks」 。
此前的特斯拉视觉识别预测是这么做的:
首先 , 由车辆摄像头获取道路环境的 2D 图像 , 然后图像被送至特征提取部分 , 即「Backbone」 。 然后在 2D 的像素空间下再对特征进行识别区分以及道路环境预测 。
环球车讯网|FSD Rewrite:特斯拉的模仿游戏
本文图片
比如路肩探测 , 实际的效果是这样的:
环球车讯网|FSD Rewrite:特斯拉的模仿游戏
本文图片
「You just can't drive on this raw prediction of these edges and these 2D pixel coordinate systems.」Andrej 如是说 , 仅靠这些粗糙的路肩图像和 2D 像素坐标系还不能作为驾驶的参考 。
于是在此基础上 , 特斯拉做出了「Bird's Eye View」 。
环球车讯网|FSD Rewrite:特斯拉的模仿游戏
本文图片
依然还是靠摄像头 , 捕捉的依然是 2D 图像 。 只不过这次 , 特斯拉动用了 5 个方向的摄像头 , 并将捕获的 2D 图像转化为 3D 素材 , 而这些模拟出的 3D 素材在一个叫「Occupency Tracker」(大概意思为实物建模器)的部分进行拼接 , 完成拼接后最后自上而下投影至 Z+ 平面 , 如鸟瞰图一般 。
一方面这个数据会以可视化的形式显示在中控 UI 上 , 另一方面这一环境建模数据也将作为驾驶决策的参考 。
不同摄像头之间的「拼接」说起来好像没什么 , 实际上可并非如此 。 Andrej 表示不同摄像头的视角不一样 , 同一特征在不同画面中的轮廓是不一致的 , 拼接过程要把各个特征匹配对齐 。 而与此同时还要把各个视角素材的时间轴做好匹配 , 并在车辆行驶中将「过去时」里已经构建好的环境与「现在时」构建的环境做连续拼接 。


推荐阅读