环球车讯网|FSD Rewrite：特斯拉的模仿游戏( 六 )

流程背后：数据和训练机制
神经网络的核心功能之一是基于图像的特征识别，所以在特斯拉神经网络的深度学习过程中很多内容都与此相关。
以停止标识的识别为例，首先需要人为标记素材中的停止标识，让系统认识这个图案，明白素材标记位置这种红白像素的排列就是停止标识。
完成这一过程后，系统就可以识别与图片素材相似度高的停止标识。

本文图片
不过大千世界无奇不有，现实世界情况非常复杂。

本文图片

本文图片
依然以停止标识为例，停止标识有很多种不同的图案样式，出现的形式也千奇百怪，还有被遮挡、带灯光、有限定触发条件等等众多的奇葩场景。
非线性相关的「见多识广」
要想系统能识别这些差异化的同类特征，方法只有一个 —— 收集以上场景的素材，用它们来训练神经网络。

本文图片
简单来说，你收集素材越多，素材覆盖的场景越全，训练后的神经网络就越见多识广，它能应对的场景自然也就越多。
但这个过程中又有一个不能忽略问题 —— 数据的有效性。
神经网络起步的阶段，其学习的场景还不多，所以寻找「单元测试」素材难度并不大。但随着神经网络学习的场景越来越多，经验越来越丰富，大部分的场景它都可以识别通过了，所以这时候收集的数据很多都是重复的无用数据。
神经网络不会平白无故掌握新技能，只有给它提供与之前不一样的「单元测试」素材，它才能学到新东西。
【环球车讯网|FSD Rewrite：特斯拉的模仿游戏】这些与之前不一样的罕见场景，业内通常称之为 corner case 。

本文图片
在机器学习的过程中 corner case 越往后越少，或者换种表达，越往后神经网络要进步所需的总数据量就越大，这种增加是呈指数模型增长的。
而这也是为什么「行驶里程」在各家的自动驾驶中都是重中之重。
特斯拉今年 4 月公布其收集的行驶数据为 30 亿英里。作为对比， Waymo 今年 1 月公布的里程为 0.2 亿英里。
需要自动化的不仅是造车
特斯拉的整体神经系统由 48 条神经网络组成，包含 1,000 个独立的神经网络。
其中针对单个特征识别神经网络的训练和测试特斯拉专门建立了前面提到的「单元测试」。
「单元测试」是特斯拉从测试驱动的开发流程中汲取灵感而来，你可以将它理解为神经网络的同类特征多场景识别统考。

本文图片
在这类统考中，特斯拉会列出多种场景的考题，神经网络必须在所有单项中都达到对应的准确率才可以通过考试。
针对没有通过测试的单项场景，开发者会继续对神经网络进行该场景的素材循环训练，直到其识别的准确率达到设定要求。
当神经网络通过所有既定测试时，针对这一个特征识别的神经网络就完成从创建到可推送至影子模式的过程了。

本文图片
但如前面所说，系统内需要识别的特征类型有约 1,000 个，每一个都需要进行这样的「单元测试」，训练需要 70,000 GPU 小时。

环球车讯网|FSD Rewrite：特斯拉的模仿游戏( 六 )

推荐阅读

熊孩子的玩具|不能话说一半，或者正话反说，父母和孩子的沟通交流要简单、直白

「中新网」优步发布安全报告后公司市值一天蒸发14亿美元

醋泡花生醋泡花生保质期为多久

记柔刀车队|比途岳还大，却沦为冷门车，韩系走向末路？，途胜：比逍客都便宜

美容护肤知识|盘点十款经典的国货护肤品，真正好用的国货化妆品排行榜

投资|刘明康：疫情流行后的世界，资产配置投资将出现三大反转

开一家公司大概需要多少钱

觉得自己性格变了，越来越不会交流?

沛沛情感|不想糖尿病“缠身”？尽量多吃6种食物，高血糖悄悄远离你

【】四川教育厅拟授跪地施救者“优秀大学毕业生”称号

自己把自己生活作死是啥样子

胃癌是吃出来？提醒：面对这4种菜，还真有可能“滋养”癌细胞

怎么在学信网上查询学历信息

阿飞背着土吗？(火影里阿飞是不是背着土？)

代理人|8个月都处于失业状态，香港保险代理人转型做代购、微商

教你制作非常实用的网站链接诱饵

西游记|为何三界都不敢杀孙悟空？如来与他第一次对话，吓得众神仙尿裤子

「树袋宝宝」父母学会捕捉教育孩子的最佳时机

古陶瓷收藏的新宠儿：老窑瓷

【道德经】《道德经》这3个字，写尽了人的一生！