百度背叛激光雷达路线了吗?( 五 )


几何推理– 将模型输出的图像视觉特征作为观测值 , 障碍物空间位置朝向和尺寸作为未知参数 , 基于相机姿态和经典投影几何(Projective geometry)可计算3D到2D的投影 。
理想条件下3D元素投影到相机的坐标和2D特征观测应该重合 , 由于3D信息预测误差的存在 , 模型输出3D投影和2D图像观测会存在一定偏差 ,几何推理的作用是通过场景先验和视觉几何原理对模型输出的障碍物3D初值进行优化 , 以此得到2D-to-3D的精确结果 。
投影计算方程依赖对相机的姿态进行实时估计 , 理想情况假设相机水平安装 , 视线与路面平行 , 俯仰角接近为0° 。 车辆行驶中 , 受地面坡度起伏影响 , 相机相对地面的姿态不断变化 , 精准估计车辆运动中相机俯仰角是求解3D-to-2D投影的必要条件 , 我们称这个步骤在线标定 。
Apollo Lite在线标定算法并不依赖高精地图 , 通过学习道路上线状特征如车道线和马路边沿 , 拟合出多条空间中的平行线在图像投影上的交点 — 消失点(Vanishing point) , 基于透视几何原理 , 可精确估计车辆行驶中相机俯仰角的实时变化的情况 。
百度背叛激光雷达路线了吗?文章插图
△基于车道线和视觉几何的消失点估计锁定相机姿态后 , 障碍物尺寸是影响3D距离估计的另一关键因素 。 透视投影过程中可解释成像结果的 “距离x尺寸” 组合并不唯一 , 因遮挡和图像截断存在 , 从局部2D框学习障碍物尺寸的难度较大 , Apollo Lite转而从 「分类」 视角寻求突破 , 物理世界中车辆种类(轿车 , SUV , 公交、卡车……)和其对应物理尺寸是可枚举的 , 通过归纳构建维护了一个种类丰富的车辆 “类型x尺寸” 模板库 , 模型学习的类型和尺寸信息结合模板库搜索为障碍物尺寸初值提供了有效约束 。
百度背叛激光雷达路线了吗?文章插图
△Apollo-lite细分类(fine-grained)车辆模板库
经过精细化打磨的2D-to-3D算法显著提升了Apollo Lite在复杂城市道路下的自动驾驶能力和乘坐体验 , 因“3D位置估计不准”衍生的驾驶策略缺陷如碰撞风险、急刹等事件发生频率大幅降低 , 与之相关的接管频次和急刹频次指标分别下降90%和80% , 200m内车辆距离估计平均相对距离误差低于4.5% , 行人与非机动车平均相对距离误差低于5% 。
场景语义理解解决2D-to-3D问题夯实了感知「看见」和「看准」的基础能力 , 复杂城市道路对系统「看懂」场景的能力提出了更进一步的要求 , 根据转向灯和刹车灯状态预测前车行为 , 通过锥筒摆放判断道路施工并提前绕行 , 在红绿灯被前方大车遮挡时根据周边车辆行为判断信号灯颜色状态等都属读懂场景的能力 , 视觉感知系统从像素中挖掘图像内蕴含的深层信息对提升驾驶智能性和通过性至关重要 。
下面重点以交通信号灯识别任务为例 , 介绍Apollo Lite为应对复杂城市路况所做的部分感知技术升级 。
动态语义识别 – 红绿灯检测依赖高精地图为路网内每个灯提供静态语义标注信息(如3D位置与尺寸 , 方向控制 , 车道的绑定关系等) , 重地图先验的模式变相降低了线上感知算法难度 , 但难以应对信号灯故障和高频的设备维护和道路变更 。
Apollo Lite为此扩充了红绿灯动态语义识别能力 , 在不依赖地图前提下 , 一方面支持检测场景中出现的各类临时红绿灯 , 输出2D灯杆/灯框、距离、灯头颜色等属性 , 另一方面 , 扩充了语义理解的维度 , 在此前单一单帧灯色识别基础上把时序灯色变化过程蕴含的语义考虑进来 , 新增加倒计时、转向灯、灯色闪烁模式、故障灯语义等场景理解能力 , 不依赖地图实时更新亦能第一时间适应道路上的变更 , 为决策规划提供信号灯全语义输出 。


推荐阅读