环球车讯网|FSD Rewrite:特斯拉的模仿游戏( 四 )


虽然特斯拉一向是铁骨铮铮 , 打死不用激光雷达的人设 , 但在 FSD Beta 上他们其实偷偷做了一套「影像版激光雷达」方案 。
特斯拉的开发者们有这样的一种思路:之前基于视觉的景深测算效果不好 , 很大程度上是因为「数据的表达形式」 , 也就是 2D 像素坐标这一框架限制了视觉的能力上限 。
而他们的解决办法是用影像的手段「模仿」激光雷达 。 具体的步骤是这样的:
通过视觉景深测算的方法从摄像头图像中测算出像素景深;
得到像素景深后将 2D 图像反投影为 3D 点云 , 得到「Pseudo-Lidar」—— 拟激光雷达数据;
得到的拟激光雷达数据通过用于 Lidar 数据的算法做解析 , 构造出新的景深预测 。
环球车讯网|FSD Rewrite:特斯拉的模仿游戏
本文图片
这一思路清奇的「模仿」帮助特斯拉在没有激光雷达硬件的前提下产出了「类激光雷达」的 3D 预测效果 , 其中像素景深反投影 3D 点云的步骤至关重要 。
新的手段相比之前提供了更高的上限 , 但接近这个上限 , 「类」的程度能达到多少 , 还是要取决于第一步中像素景深的精度 。 它是后面所有数据的母数据 , 是景深测算的原始标尺 。
2019 年特斯拉自动驾驶日上 Andrej 有简单介绍过特斯拉团队在通过神经网络的自学习手段对这一过程进行优化 。
其大致思路是这样的:系统的神经网络按要求在无标记的视频素材中做全画面像素的连续性景深预测 , 而这些生成的预测图像将与实际的视频素材进行连续的逐帧匹配比对 , 而连续性匹配达标的基本前提就是最原始画面的景深计算是正确的 , 或者说精度是 OK 的 。
环球车讯网|FSD Rewrite:特斯拉的模仿游戏
本文图片
环球车讯网|FSD Rewrite:特斯拉的模仿游戏
本文图片
环球车讯网|FSD Rewrite:特斯拉的模仿游戏
本文图片
环球车讯网|FSD Rewrite:特斯拉的模仿游戏
本文图片
在验证中 , 特斯拉将雷达测算的物体位置标记为点 , 将视觉测算的位置标记为立方体 , 在官方的演示素材里两者已经展现出不错的跟随匹配度 。
环球车讯网|FSD Rewrite:特斯拉的模仿游戏
本文图片
所以面对网络上流传的带着激光雷达的特斯拉测试车 , 不要那么肯定地觉得特斯拉转投激光雷达了 , 或许人家是在测试拟激光雷达视觉方案与激光雷达方案的测距匹配度 。
环球车讯网|FSD Rewrite:特斯拉的模仿游戏
本文图片
另一个有趣的事情是 2019 年外媒 THE ROBOTREPORT 报道的一则内容中 , 康奈尔大学的研究团队提出了用拟激光雷达手段提高视觉感知精度的方案 , 思路与特斯拉不尽相同 。 而经过这些研究人员的实测对比验证 , 拟激光雷达手段的视觉方案在位置探测精度上与真正的激光雷达效果非常接近 。
而且研究人员在采访中也提到了相比仅靠前摄 , 如果能在「Bird's eye view」下对环境素材进行解析 , 其精度可以提高 3 倍以上 。
相同的技术名词、类似的手段、一致的结论 , 这个研究团队和特斯拉的关系不禁让人浮想联翩 , 然而八卦之外 , 能看出来的是在视觉方案探索的道路上已经有人和特斯拉想到了一起 。
最强大脑有了 , 还要学东西
人类天生就有视觉但并非天生会开车 , 而从不会到会的过程其实脑袋里主要增加了两个大方向的能力:
·对道路环境的认知和预判
·
逐渐熟练的驾驶逻辑
基于神经网络的 FSD 学车的逻辑与这不尽相同 。


推荐阅读