万字分析汽车毫米波雷达点云技术

雷达点云的语义分割是雷达数据处理中的一项新的挑战 。我们演示了如何执行这项任务 , 并提供了关于人工标记的雷达反射的大型数据集 。与之前将聚类反射产生的特征向量作为分类器的输入不同的是 , 现在将整个雷达点云作为输入 , 并获得每个反射的类概率 。因此 , 我们不再需要聚类算法和手动选择特征 。
1 介绍在过去几年中 , 图像分析从单纯的将图像中的中心对象的分类 , 以及对象或对象部分的检测转移到单个组合任务:语义分割 。语义实例分割通过区分物理上不同的对象的相同类标签的像素来增强语义分割 , 使得除了按像素分类之外 , 还会对对象实例进行分组 。
 
语义分割通常是由深度卷积神经网络完成的 , 这些网络通常表现为编码器-解码器结构 。这些架构都依赖于规则的图像结构 , 也就是具有等距像素的矩形网格 。如果使用全卷积网络 , 网格的尺寸 , 即图像的宽度和高度 , 可能是变动的 。矩形网格引起像素之间的距离和邻域关系 , 这些关系被卷积核所利用 , 其空间扩展大于一个像素 。因此 , 如果将摄像机用作传感器 , 这些方法可以正常发挥作用 。雷达和激光雷达传感器是对摄像头的补充 , 以保持功能安全 。这些额外的传感器不仅应该是互补 , 而且还是冗余的 。因此 , 最好也能从雷达和激光雷达中获得对周围环境的高度语义理解 。
 
在本文中 , 我们将对雷达数据进行语义分割 , 也就是说 , 我们为每一个测量到的反射点分配一个类别标签 。我们专注于动态对象 , 并针对研究六个不同的类别:汽车、卡车、行人、行人组、自行车和静态对象 。在应用恒虚警率(CFAR)算法之后获得的雷达检测结果构成了一个点云 ,  其中点云P被定义为一组N∈N个点pi∈Rd , i = 1 , … , N , 其中点云中的点的顺序无关紧要 。对于每次反射 , 需要测量两个空间坐标(径向距离r和方位角φ) , 自我运动补偿多普勒速度vˆr和雷达截面(RCS)σ 。因此 , 必须在语义分割任务中处理4维点云 。雷达反射的空间密度会急剧变化 , 因此大规模网格映射的方法在计算上是不可行的 。所以 , 不能应用用于相机图像的通常网络结构 。可以从图1中读出 , 不需要类似图像的输入的算法 , 是非常有必要的 , 图中显示了在200毫秒的时间内从四个雷达上收集的雷达探测数据 。在该图中 , 可以看到没有测量的大区域以及具有大量反射的区域 。整个场景的网格地图具有大约2000个单独的反射 , 必须覆盖至少150米×200米的大空间区域 , 甚至在非常低的分辨率下 , 单元尺寸为1米×1米 , 网格中最多有6%的像素将具有非零值 。
 
万字分析汽车毫米波雷达点云技术

文章插图
 
图1 雷达点云积累超过200毫秒 。突出了三种不同车型的反射 。仅显示完整视野的摘录
 
因此 , 我们使用Poin.NET ++作为我们分割算法的基础 。PointNet ++能够直接在点云上工作 , 它最初设计用于处理来自激光扫描仪的3D空间数据 。在本文中 , 我们修改了架构以处理两个空间维度和另外两个特征维度 。
 
在之前的工作中 , 分类是在特征向量上进行的 , 而这些特征向量又是从聚类的雷达反射中获得的 。通过我们的新方法 , 我们避免了这两个预处理步骤:将雷达目标分组到聚类 , 并且不再需要从这些聚类中生成预定义的特征向量 。这些表明我们的新方法大大优于以前的方法 。
 
本文的其余部分结构如下:在第二部分 , 我们评论了相关工作和该议题的其他方法 。之后 , 我们更详细地描述了我们的网络结构 , 并解释了我们的训练和测试程序 。在第四部分 , 我们展示了我们的成果 , 并将其与以前的方法进行了比较 。最后 , 对我们的未来工作进行了展望 。
2 相关工作当相机用作传感器并且大多数算法都针对图像数据进行定制时 , 语义分割是一种流行的方法 。全卷积网络的引入激发了许多类似的和后来更先进的神经网络结构 , 如SegNet , U-Net , R-CNN , 以及其后续的Fast R-CNN , Faster R-CNN , 和Mask R-CNN 。为了将这些技术应用于雷达数据 , 必须进行一些预处理 。网格图提供了一种将空间非均匀雷达反射转换为图像数据的方法 。测量的反射随时间积分并插入地图中的相应位置 。用这种方法可以创建不同的地图 , 例如占用网格地图(描述网格占用的后验概率) , 或者RCS地图 , (提供有关每个网格中反射的测量RCS值的信息) 。这种方法对静态物体很有效 , 因为只需要考虑自我运动(而不是额外的物体速度和轨迹) , 就可以在地图中的正确位置插入不同时间的雷达反射 。对于在此项工作中所考虑的动态物体 , 需要精确的扩展目标跟踪算法 , 或者将物体的动态视为特征 , 以便动态物体在地图中创建扩展的反射尾部 。另一个困难是 , 对于稀疏数据 , 网格映射并不是有效的 , 因为需要潜在的大网格来显示相对较少的测量 。


推荐阅读