论文解读--CRN:Camera Radar Net for Accurate, Robust, Efficient 3D Perception
2026/6/25 23:11:07 网站建设 项目流程

一、研究背景与问题定义

1. 自动驾驶3D感知的核心需求

  • 功能需求:需要同时支持3D目标检测、跟踪、BEV分割、高精地图生成、轨迹预测等多下游任务,鸟瞰视角(BEV)特征是统一支撑多任务的高效表示形式。
  • 落地痛点:
    • 激光雷达(LiDAR)成本高、维护复杂,难以大规模落地;
    • 纯相机方案对光照/天气敏感,缺乏深度信息,3D定位误差大,长距离检测性能差;
    • 毫米波雷达(radar)成本低、抗恶劣天气、测距准、能测速、感知距离可达200m,但点云极度稀疏(比LiDAR少180倍)、噪声大、无高程信息,单独使用语义感知能力差。

2. 现有融合方案的缺陷

  • 晚期融合(检测结果层面融合)无法充分利用两类传感器的互补信息,性能上限低;
  • 现有BEV层面融合方案未针对性解决两类传感器的特性缺陷:相机BEV变换的空间误差、雷达的稀疏性与噪声、多模态特征的空间不对齐问题。

二、CRN核心设计思想

CRN是两阶段BEV编码融合框架,目标是生成语义丰富(相机优势)+ 空间精确(雷达优势)的统一BEV特征,核心设计遵循三个原则:

  • 相机特征到BEV的变换需保证空间位置准确性;
  • 融合过程需要能处理多模态特征的空间不对齐问题;
  • 变换与融合过程需要自适应,适配雷达的噪声与歧义性。

图1 在nuScenes数据集上,FPS与精度的对比。我们证明,融合雷达信息可显著提升仅使用摄像头的方法性能,且计算开销仅为微小。CRN在速度上优于所有方法,且运行速度大幅提升。

三、关键技术模块

1. 雷达辅助视角变换(RVT, Radar-assisted View Transformation)

解决纯相机深度估计不准导致的BEV变换空间误差问题,流程如下:

  • 相机侧编码:多视角图像经过骨干网络提取透视视图(PV)特征,同时预测每个像素的深度分布(和纯相机BEV方案一致)。
  • 雷达侧编码:雷达点云投影到对应相机视图,体素化为截锥体视图(frustum view)特征,同时预测雷达的深度 occupancy(表示该深度位置是否存在物体)。
  • 融合截锥体变换:将相机透视特征分别与深度分布、雷达occupancy做外积,拼接后得到融合的截锥体特征,再通过Voxel Pooling转换为统一的相机BEV特征。
  • 优势:同时利用了稠密但不准的相机深度分布,和稀疏但精确的雷达测距信息,相比纯相机深度变换,NDS提升8.2%、mAP提升11.6%。

图2 所提出的相机雷达网络的整体架构。基于多视角图像和雷达点,模态特定的骨干网络在每个视角中提取特征。首先,借助雷达辅助视角变换(RVT)技术,将透视视角下的图像上下文特征通过雷达测量转化为鸟瞰图视角。随后,多模态特征聚合(MFA)自适应地融合图像与雷达特征图,生成语义丰富且空间准确的鸟瞰图表示。

2. 多模态特征聚合(MFA, Multi-modal Feature Aggregation)

解决多模态BEV特征空间不对齐、融合不自适应的问题:

  • 核心组件:多模态可变形交叉注意力(MDCA)
    针对普通交叉注意力计算复杂度随BEV尺寸呈平方增长、无法适配长距离感知的问题,基于可变形注意力改进:
    • 为每个模态单独设置采样偏移和注意力权重,自适应调整对相机/雷达特征的依赖程度;
    • 复杂度从O(N²)降低到线性O(N),N为BEV网格数量,支持长距离感知场景。
  • 稀疏聚合优化:根据深度分布和雷达occupancy的置信度,仅选择Top-K个高置信度BEV网格参与注意力计算,进一步降低计算量,长距离场景下推理速度提升21.7%,仅损失少量性能。

图4 在检测任务上训练的特征图可视化结果。图像中,车辆因严重遮挡(白色)或远距离下几乎不可见(蓝色)而未被检测到。雷达中,来自墙壁的杂波(黑色)或具有行向雷达截面(红色)的行人导致检测失败。我们的多模态融合方法通过融合生成了更可靠的BEV特征图。请注意,BEV特征图已裁剪以增强可视化效果。

四、多任务适配

生成的统一BEV特征可直接适配不同下游任务,仅需更换任务头:

  • 3D检测与跟踪:采用CenterPoint的无锚框检测头,基于速度匹配实现跟踪,无需修改框架主体。
  • BEV分割:采用卷积解码头,输出车辆、可行驶区域的语义占据栅格,用Focal Loss训练。

五、实验结果与核心结论

所有实验在nuScenes数据集上完成,核心结论如下:

1. 精度达到激光雷达级水平

  • 3D检测:nuScenes测试集NDS 62.4%、mAP 57.5%,位列所有相机/相机-雷达方法第一,超过激光雷达基线CenterPoint-P(NDS 59.8%);在100m长距离场景下,性能优于激光雷达方法,尤其30m以上远距优势显著。
  • 3D跟踪:AMOTA 56.9%,超过所有公开纯相机跟踪方案,同时降低跟踪定位误差和ID切换次数。
  • BEV分割:车辆分割IoU 58.8%、可行驶区域IoU 82.1%,超过现有纯相机/融合方案,同时保持24.8FPS的实时速度。

表1 nuScenes验证集上3D目标检测对比

2. 效率优势显著

  • 小配置版本(256×704输入、ResNet18骨干)可达27.9FPS,性能超过大配置纯相机方案(如900×1600输入的BEVFormer),速度快15倍以上;
  • 雷达模块带来的额外计算成本可忽略,仅增加14.9ms延迟即可带来12.4的NDS提升。

3. 鲁棒性极强

  • 传感器故障容错:单模态完全失效时,性能仍优于对应单模态基线;雷达完全不可用时,性能仅下降5.6%,远低于传统融合方案的15%下降幅度。
  • 恶劣环境适配:雨天、夜间场景下,相比纯相机方案mAP提升13.6~18%,接近激光雷达的鲁棒性。

六、消融研究验证的关键结论

  • RVT模块:单独使用雷达做视角变换性能会下降(雷达太稀疏),单独用估计深度误差大,两者融合后才能实现最优性能;该方法对LiDAR输入也有稳定性能提升,具有通用性。
  • MFA模块:相比简单的卷积拼接融合,可变形注意力能更好处理空间不对齐问题,提升融合性能;和RVT结合实现最优效果。
  • 时序信息:多帧BEV特征累加可以显著提升检测、跟踪性能,且不会增加推理延迟(历史帧BEV特征可缓存复用)。

表6 特征聚合方法的消融。请注意,MFA与RVT是我们完整的模型。

七、研究价值与行业影响

  • 提供了低成本自动驾驶感知的可行路径:用相机+毫米波雷达的低成本组合,实现了接近激光雷达的感知性能,可大幅降低自动驾驶方案的落地成本。
  • 解决了相机-雷达融合的核心痛点:针对性适配两类传感器的特性缺陷,为后续多模态融合研究提供了通用的框架参考。
  • 支持长距离实时感知:对高速自动驾驶等需要远距感知的场景,具有很高的落地价值。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询