大模型2.0时代的优化与突破( 二 )


想要更好满足上述不同场景的需求,通用大模型需要在现有基础上,完成从输入文字输出文字,到看懂图像、视频,并能产出图像、视频的转变,相当于让大模型具备了“耳朵”和“眼睛”,为创建“数字人”打下基础 。
传统数字人只需要按照既定脚本输出,但在大模型时代,360的数字人可定制,因此?设、有记忆、有经历,目前在360数字??场平台中,已经有200多个??,分为数字名?和数字员?两个种类 。360希望未来可以让每个?都有自己的AI助理,并有机会在虚拟空间内,跨越时空,和古人交流 。
在演示会上,周鸿祎问“诸葛亮”怎么看今天成为鬼畜素材,数字人以诸葛亮的口吻回复:夫古今之命,乃实事所必然也 。今之时势,天下纷扰不已 。吾虽已老,仍志在天下 。今者年轻人以吾为鬼畜素材,吾欣然接受此变化 。并祝愿年轻朋友在未来的道路上勇往直前,开创更加美好的未来 。
同时周鸿祎还强调,未来数字人的形态还会有??的?标、规划和分解的能?,从而可以调?各种垂直的模型完成任务 。
不过这些功能其实都是在现有大模型应用基础上的优化,并没有开辟一个全新的领域 。但实际上,当大模型取得突破后,最具创造性的应用场景是无人驾驶 。
03 无人驾驶有机会驶入快车道
回顾无人驾驶领域,自从2016年开始,各大厂商都在布局这个领域,但是直到今年也没有一家可以实现真正的无人驾驶 。
目前一辆L2+级别的无人驾驶系统需要10+颗摄像头;1-2颗激光雷达;或3-5颗毫米波雷达提供的多维度数据,人工标注数据之后才能用于模型的训练 。在可识别影像的大模型出现之后,人工标注所需要的时间成本和物质支出将会骤然下降 。
【大模型2.0时代的优化与突破】据2023年4月毫末智行DriveGPT发布会显示,目前要得到对诸如车道线、交通参与者、红绿灯等信息,行业人工标注的成本约每张图为5元,毫末DriveGPT的成本为0.5元 。我们认为科技公司大模型训练成熟后,单张图自动标注的边际成本趋近于0,平均成本有望进一步下降 。
据恺望数据产品项目副总裁张鹏在2023年2月的介绍,目前数据标注以人工标注为主,机器标注为辅,95%的数据标注还是以人工为主 。大模型的介入,可以极大地提升这个行业的效率 。以特斯拉为例,2021年人工标注团队为1000多人,2022年该团队裁员200余人 。
除此之外,大模型时代,第三方科技巨头有望通过提供完善的工具链,帮助整车厂构建自己的自动驾驶算法和数据闭环系统,同时依靠大模型的数据生成能力缩小在数据领域的差距,自动驾驶的Android/ target=_blank class=infotextkey>安卓时代有望来临 。
目前,大模型已经被用于赋能数据闭环、仿真、感知算法、规控算法等领域 。而巨头如微软、英伟达在大模型和自动驾驶争相布局,或将擦出新的火花 。
此外大模型的出现也促进行业分工,避免“重复造轮子”,同时加速传感器和芯片迭代,系统成本有望大幅下降 。大模型开发者和自动驾驶产业链玩家有望全面受益 。

大模型2.0时代的优化与突破

文章插图
以百度Apollo为例,其首先利用图文信息预训练一个原始模型,利用算法将街景图像数据进行物体识别并定位和分割,放入编码器形成底库,即基于街景建立一个图片和文字信息对应的数据池 。
其次可以通过文本、图像等形式对特定的场景(如快递车、轮椅、小孩等)进行搜索和挖掘,对车端模型进行定制化的训练,大幅提升存量数据的利用效果 。
百度用半监督方法,充分利用2D和3D数据训练一个感知大模型 。通过在多个环节对小模型进行蒸馏,提升小模型的性能,同时通过自动标注给小模型定制化的训练,用来增强远距离视觉3D感知能力、提升多模态感知模型的感知效果 。
另一家头部玩家商汤科技也曾公开表示,可以用AIGC生成真实的交通场景以及困难样本来训练自动驾驶系统,以多模态数据作为大模型的输入,提升系统对Cornercase场景的感知能力上限 。
同时自动驾驶多模态大模型可做到感知决策一体化集成,在输出端通过环境解码器可对3D环境进行重建,实现环境可视化理解;行为解码器可生成完整的路径规划;动机解码器可用自然语言对推理过程进行描述,使自动驾驶系统变得更加安全可靠 。
大模型实现上述功能后,未来无人驾驶门槛会越来越低,头部厂商加速无人驾驶项目进程的同时,还可以让更多新玩家加入这个领域,并开拓除道路导航外,需要道路规划功能的赛道,比如进一步优化扫地机器人的路径规划 。


推荐阅读