多模态传感器融合下的目标检测算法性能综合评估与前沿趋势分析

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《IEEE Sensors Reviews》：Comprehensive Performance Analysis of Object Detection Algorithms Across Diverse Sensor Modalities

【字体：大中小】 时间：2025年12月01日 来源：IEEE Sensors Reviews

编辑推荐：

　　本刊推荐：为解决目标检测算法在不同传感器模态下的性能差异与泛化能力不足问题，研究人员系统性地综述了基于RGB相机、LiDAR、雷达、热成像及深度传感器等多种模态的先进目标检测方法。研究通过PRISMA指南系统分析了六大数据集（KITTI、nuScenes、FLIR、LLVIP、JUVDsi v1、IRUVD）上2D/3D检测算法的性能表现，结果表明多模态融合方法（如RSDet在FLIR数据集mAP达83.9%）显著优于单模态方法，尤其能提升复杂场景（如低光照、遮挡）下的检测鲁棒性。该研究为自动驾驶、机器人感知等领域的传感器选型与算法设计提供了重要参考。

在计算机视觉领域，目标检测技术已成为自动驾驶、机器人导航和智能监控等应用的核心驱动力。然而，随着应用场景的日益复杂，研究者们逐渐发现一个关键问题：算法的性能高度依赖于所使用的传感器类型。传统的RGB摄像头在光照良好的条件下表现优异，但在夜间、雾霾或强光照射等恶劣环境下，其检测能力会大幅下降。这引出了一个更深层次的挑战——如何让目标检测系统在不同传感器模态下都能保持高精度和强鲁棒性？

为此，由苏沃吉特·阿查吉（Suvojit Acharjee）领衔的研究团队在《IEEE Sensors Reviews》上发表了题为《Comprehensive Performance Analysis of Object Detection Algorithms Across Diverse Sensor Modalities》的系统性综述。该研究遵循PRISMA（Preferred Reporting Items for Systematic Reviews and Meta-Analyses）指南，对基于不同传感器模态的目标检测算法进行了全面评估，涵盖了RGB相机、激光雷达（LiDAR）、雷达、热成像和深度传感器等多种数据来源。研究不仅追溯了针对这些模态量身定制的基准数据集的演变历程，还深入探讨了标注策略和传感器特定特征如何影响研究方向，并重点分析了多模态与跨模态数据集的日益普及。

研究揭示，尽管目标检测传统上依赖于简单的RGB图像，但近年来已出现向多模态和跨模态数据集的明显转变。目前，15%-20%的算法开始融合LiDAR的3D数据，10%-15%的算法使用多模态输入。这表明，单一传感器已难以满足复杂场景下的感知需求，多传感器融合正成为提升检测性能的关键路径。

研究人员采用系统性的研究方法，设定了五个核心研究问题（RQ），涵盖研究焦点、应用领域、架构选择、模态影响以及未来挑战。通过四阶段研究流程——识别相关研究、筛选研究、提取关键数据、综合与分析，团队从IEEE Xplore、ACM Digital Library等权威数据库中筛选出高质量文献，确保分析的全面性与可靠性。

在技术方法层面，本研究重点对比了六大公共数据集上的算法表现：

1.
KITTI与nuScenes：专注于自动驾驶场景，提供同步的LiDAR与相机数据，支持2D/3D检测评估
2.
FLIR与LLVIP：针对低光环境，融合热成像（IR）与可见光（RGB）模态
3.
JUVDsi v1与IRUVD：聚焦印度街景，增加地理与环境多样性

关键评估指标包括平均精度（AP）、均值平均精度（mAP）、精确度、召回率以及nuScenes检测评分（NDS）等。

KITTI数据集分析

KITTI作为自动驾驶研究的奠基性基准，提供14999张图像与51865个标注对象。研究发现在2D单模态检测中，YOLOv3虽召回率达98.7%，但精确度仅84.77%，且mAP普遍偏低（如EfficientNet为66.7%），表明该数据集更适用于3D检测任务。在3D检测中，鸟瞰图（BEV）方法（如VOXELNET对车辆类在中等难度下AP达79.26%）通常优于直接3D方法，因BEV将稀疏点云转换为结构化网格，更适配卷积神经网络。然而，多模态检测中，直接3D方法（如PA3DNET对车辆AP^3D_Easy达93.18%）更受青睐，因其能保留完整的几何信息，实现更丰富的传感器融合。

nuScenes数据集表现

nuScenes以其多模态传感器套件（6摄像头、32线LiDAR、5雷达）和全360度覆盖著称。评估显示，LiDAR-based方法（如CenterPoint-V的NDS达65.3%）显著优于纯视觉方法，但相机-only方法（如SparseBEV的NDS达54.5%）通过时序建模与BEV表示正快速追赶。多模态融合中，雷达-相机组合（如HyDRa的NDS达61.7%）在恶劣天气与夜间场景下展现优势，凸显互补性传感的价值。

热成像与低光数据集（FLIR与LLVIP）

在FLIR数据集中，红外（IR）模态的检测性能（Faster R-CNN的mAP@50为74.4%）远优于RGB模态（同一模型为64.9%），证实热成像在低光下的有效性。多模态融合模型RSDet更将mAP@50提升至83.9%。LLVIP数据集进一步验证，在严格对齐的RGB-IR图像对中，IR模态的检测精度（DDQ-DETR的mAP@50为93.9%）显著高于RGB（86.1%），而融合方法（如RSDet的mAP@50达95.8%）能综合可见光细节与热成像的弱光鲁棒性，提升夜间行人检测的可靠性。

地域性数据集（JUVDsi v1与IRUVD）

针对印度复杂交通场景的JUVDsi v1与IRUVD数据集显示，YOLOv7在IRUVD上取得最高mAP@50（95.9%），但类别不平衡（如机动车丰富而人力车稀少）仍导致模型偏倚。这些数据集突出了在非结构化交通环境中开发具地域适应性算法的重要性。

研究结论与讨论部分强调，多模态传感器融合通过互补性数据显著提升了目标检测的准确性与泛化能力。例如，在KITTI与nuScenes等复杂基准上，融合方法持续优于单模态方法。然而，当前研究仍面临挑战：长尾类别分布、标注频率不足（如nuScenes仅2Hz）、极端天气数据缺失等。

未来研究方向包括：开发高频多模态真值标注系统、增强极端条件数据合成、推进跨地域联邦基准建设、优化资源受限平台的部署效率等。该综述不仅总结了当前进展，更为构建更鲁棒、高效且具伦理考量的感知系统指明了路径，对自动驾驶、智能交通等领域的发展具有重要指导意义。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号