环球车讯网|FSD Rewrite:特斯拉的模仿游戏( 六 )


流程背后:数据和训练机制
神经网络的核心功能之一是基于图像的特征识别 , 所以在特斯拉神经网络的深度学习过程中很多内容都与此相关 。
以停止标识的识别为例 , 首先需要人为标记素材中的停止标识 , 让系统认识这个图案 , 明白素材标记位置这种红白像素的排列就是停止标识 。
完成这一过程后 , 系统就可以识别与图片素材相似度高的停止标识 。
环球车讯网|FSD Rewrite:特斯拉的模仿游戏
本文图片
不过大千世界无奇不有 , 现实世界情况非常复杂 。
环球车讯网|FSD Rewrite:特斯拉的模仿游戏
本文图片
环球车讯网|FSD Rewrite:特斯拉的模仿游戏
本文图片
依然以停止标识为例 , 停止标识有很多种不同的图案样式 , 出现的形式也千奇百怪 , 还有被遮挡、带灯光、有限定触发条件等等众多的奇葩场景 。
非线性相关的「见多识广」
要想系统能识别这些差异化的同类特征 , 方法只有一个 —— 收集以上场景的素材 , 用它们来训练神经网络 。
环球车讯网|FSD Rewrite:特斯拉的模仿游戏
本文图片
简单来说 , 你收集素材越多 , 素材覆盖的场景越全 , 训练后的神经网络就越见多识广 , 它能应对的场景自然也就越多 。
但这个过程中又有一个不能忽略问题 —— 数据的有效性 。
神经网络起步的阶段 , 其学习的场景还不多 , 所以寻找「单元测试」素材难度并不大 。 但随着神经网络学习的场景越来越多 , 经验越来越丰富 , 大部分的场景它都可以识别通过了 , 所以这时候收集的数据很多都是重复的无用数据 。
神经网络不会平白无故掌握新技能 , 只有给它提供与之前不一样的「单元测试」素材 , 它才能学到新东西 。
【环球车讯网|FSD Rewrite:特斯拉的模仿游戏】这些与之前不一样的罕见场景 , 业内通常称之为 corner case 。
环球车讯网|FSD Rewrite:特斯拉的模仿游戏
本文图片
在机器学习的过程中 corner case 越往后越少 , 或者换种表达 , 越往后神经网络要进步所需的总数据量就越大 , 这种增加是呈指数模型增长的 。
而这也是为什么「行驶里程」在各家的自动驾驶中都是重中之重 。
特斯拉今年 4 月公布其收集的行驶数据为 30 亿英里 。 作为对比 , Waymo 今年 1 月公布的里程为 0.2 亿英里 。
需要自动化的不仅是造车
特斯拉的整体神经系统由 48 条神经网络组成 , 包含 1,000 个独立的神经网络 。
其中针对单个特征识别神经网络的训练和测试特斯拉专门建立了前面提到的「单元测试」 。
「单元测试」是特斯拉从测试驱动的开发流程中汲取灵感而来 , 你可以将它理解为神经网络的同类特征多场景识别统考 。
环球车讯网|FSD Rewrite:特斯拉的模仿游戏
本文图片
在这类统考中 , 特斯拉会列出多种场景的考题 , 神经网络必须在所有单项中都达到对应的准确率才可以通过考试 。
针对没有通过测试的单项场景 , 开发者会继续对神经网络进行该场景的素材循环训练 , 直到其识别的准确率达到设定要求 。
当神经网络通过所有既定测试时 , 针对这一个特征识别的神经网络就完成从创建到可推送至影子模式的过程了 。
环球车讯网|FSD Rewrite:特斯拉的模仿游戏
本文图片
但如前面所说 , 系统内需要识别的特征类型有约 1,000 个 , 每一个都需要进行这样的「单元测试」 , 训练需要 70,000 GPU 小时 。


推荐阅读