一个处理激光雷达故障在BEV空间做传感器融合的框架
arXiv上传于2022年5月27号的论文“BEVFusion: A Simple and Robust LiDAR-Camera Fusion framework“,来自北大和阿里的工作(也是NeurIPS论文格式?)。
融合摄像头和激光雷达的方法,依赖于激光雷达传感器的点云,作为查询来利用图像空间的特征。然而,人们发现,这种假设条件下,当前的融合框架不可能在激光雷达出现故障时产生任何预测,无论是轻微故障还是重大故障。这从根本上限制了实际自动驾驶场景的部署能力。
本文提出一个简单融合框架,也称为BEVFusion,包括两个传感器输入工作流,其中摄像头流不依赖于激光雷达数据的输入,从而解决了以前方法的缺点。在模拟各种激光雷达故障的鲁棒性训练设置下,在nuScenes数据集上,将PointPillars和CenterPoint的平均精度(mAP)分别提高18.4%和7.1%,并实现了69.2%的mAP,优于68.9%的TransFusion方法,该框架mAP超过所有基准方法在15.7%-28.9%之间。
代码:https://github.com/ADLab-AutoDrive/BEVFusion.
在传统的车载视觉感知系统的所有传感器中,激光雷达和摄像头通常是两个最关键的传感器,它们可以提供周围世界精确的点云和图像特征。然而,由于缺乏深度信息,通常很难在纯图像输入上回归目标3D边框,同样,当激光雷达接收不到足够的点时,也很难在点云上对目标进行分类。
最近激光雷达和摄像头的融合深度神经网络,也是3D BEV感知,大部分工作可以总结如下:i)给定激光雷达点云的一个或几个点、激光雷达-世界的变换矩阵和基本矩阵(摄像头-世界);ii)将激光雷达点或提议,转换到摄像头世界用作查询,选择相应的图像特征。
然而,如果没有了激光雷达传感器的输入,例如,目标特殊纹理使得激光雷达点反射率低,内部数据传输造成系统故障,甚至硬件的限制使激光雷达FOV无法达到360度等,当前的融合方法无法产生有意义的结果。
激光雷达-摄像头融合的理想框架应该是,无论是否存在其他模态,每个单模态模型都不应该失败,但拥有这两种模态将进一步提高感知精度。
如图所示:(a) 点级融合机制,将图像特征投影到原始激光雷达点云上;(b)特征级融合机制,将激光雷达特征或提议投影到每个视图图像提取RGB信息;(c) BEVFusion框架有两个独立的工作流,将来自摄像头和激光雷达传感器的原始输入编码为相同BEV空间的特征;然后,一个简单的模块融合这些BEV级特征,再传递到任务预测头。
Lift Splat Shot(LSS)作为摄像头工作流,将多视图图像特征投影到3D 自车坐标系生成相机BEV特征。同样,对于激光雷达工作流,选择三种流行模型,PointPillars, CenterPoint 和 TransFusion,将激光雷达特征编码到BEV空间。
如图是BEVFusion框架概览图:
图像视图编码器由基本特征提取的2D主干和尺度可变目标表征的颈部模块组成。与LSS不同,使用更具代表性的Dual Swin Tiny作为主干网络,用标准FPN获取多尺度分辨率特征。为了更好地协调这些特征,提出特征自适应模块(ADP,Adaptive Module)来优化上采样的特征。具体来说,在级联之前对每个上采样特征应用自适应平均池化和一个1×1卷积。
视角投影模块把图像特征转换为3D自车坐标,即LSS提出的3D视图投影,用于构建摄像头BEV特征。其以图像-视图特征为输入,以分类方式对深度进行致密预测。然后,根据摄像头外参和预测的图像深度,导出图像视图特征在预定义的点云中渲染,并获取伪voxel。
BEV编码器模块进一步编码voxel特征进入BEV空间,其采用空间到通道(S2C)操作将从4D张量转换为3D张量,通过重定形(reshaping)保留语义信息并降低成本,而不是采用池化运算或用步长2叠加3D卷积来压缩z维度。然后,四个3×3卷积层逐步将信道维数降低,并提取高层语义信息。与LSS中基于下采样低分辨率特征提取高级特征不同,该编码器直接处理全分辨率摄像头BEV特征,可保留空间信息。
给定相同空间维度下的两个特征,一个直观的想法是连接起来,并用可学习的静态权重将其融合。受Squeeze-and-Excitation机制的启发,设计一个通道注意模块选择重要的融合特征。如图是提出的动态融合模块架构:
实验结果如下:
一般性方法比较如下表1-2所示。
下面采用两种数据增强策略:i)设置有限视野(FOV)范围(−π/3, π/3), (−π/2,π/2),来模拟激光雷达传感器的故障情况;ii)为了模拟目标故障,使用一种丢弃策略,其中每帧有0.5次机会丢弃目标,每个目标有0.5次机会丢弃其激光雷达点。
nuScenes数据集为激光雷达点云提供视野(FOV)范围为(−π、 π)。为了模拟激光雷达传感器的故障情况,采用了第一种鲁棒增强策略。如下表3所示,显然随着激光雷达视野的变窄,检测性能会下降。
然而,激光雷达存在损坏的情况下融合摄像头流时,BEVFusion模型通常比仅使用激光雷达的对应模型更加鲁棒,如图所示:(a) 在两种设置的BEV可视化点云,即有限视野(FOV)和激光雷达无法接收目标反射点,其中橙框表示目标点被丢弃,蓝框是边框,红圈框是误报预测。(b) 展示Transfusion方法和三种场景情况下的预测,显然当缺少激光雷达输入时,当前的融合方法不可避免地会失败,而BEVFusion框架可在摄像头数据流恢复这些目标。
值得注意的是,PointPillars,当激光雷达FOV在(−π/2, π/2), (−π/3,π/3),mAP 增长分别是24.4% and 25.1% ;至于Transfusion-L,BEVFusion对其激光雷达流的改进幅度很大,mAP超过18.6%和NDS超过5.3%。
TransFusion 提出的普通激光雷达相机融合方法(LC)严重依赖激光雷达数据,当NDS降低时,mAP增益限制在3.3%以下。结果表明,在训练和推理过程中融合摄像头流在很大程度上弥补了激光雷达传感器的不足。
激光雷达存在无法从目标接收反射点的常见情况。例如,在雨天,一些常见目标的反射率低于激光雷达阈值,因此导致目标检测故障的问题。为了模拟这样的场景,采用第二种鲁棒增强策略。
如表4所示,当直接评估无鲁棒性增强训练的检测器时,BEVFusion比TransFusion仅使用激光雷达流和普通激光雷达摄像头融合方法显示出更高的精度。
在鲁棒增强训练集上微调检测器时,BEVFusion将PointPillars、CenterPoint和Transmission-L的mAP分别提高了28.9%、22.7%和15.7%。具体而言,TransFusion的普通融合方法mAP增益仅为2.6%,小于微调前的性能,估计原因是缺乏前景激光雷达点导致在增强数据集上的训练过程中出现错误监督信号。结果表明,在训练和推理过程中融合摄像头流在很大程度上弥补了目标激光雷达点的不足。
进一步验证对以下摄像头故障的鲁棒性:i)前摄像头缺失,而其他摄像头保留;ii)除前摄像头外,所有摄像头均缺失;iii)50%的摄像头帧卡住。
如表5所示,在上述情况下,BEVFusion仍优于仅使用摄像头的方法和其他激光雷达-摄像头融合方法。结果表明,BEVFusion对摄像机故障具有鲁棒性。
-
汽车测试网V课堂
-
微信公众号
-
汽车测试网手机站
编辑推荐
最新资讯
-
2025年汽车标准实施信息:强制性标准、推荐
2025-01-07 14:03
-
专家解读《关于汽车数据处理4项安全要求检
2025-01-07 13:16
-
戴姆勒Torc和Aeva将合作开发自动驾驶卡车应
2025-01-07 11:55
-
Keyou开发氢内燃机(H2 ICE)奔驰Actros,
2025-01-07 11:54
-
美国财政部发布清洁氢生产税收抵免最终规则
2025-01-07 11:53