FROG数据集:膝高二维激光雷达行人检测新基准与端到端深度学习模型探索

《Frontiers in Robotics and AI》:FROG: a new people detection dataset for knee-high 2D range finders

【字体: 时间:2025年10月21日 来源:Frontiers in Robotics and AI 3.0

编辑推荐:

  本文介绍了FROG这一全新的膝高二维激光雷达(2D LiDAR)行人检测数据集,其具备更高激光分辨率、扫描频率及完整标注,并提出了基于原始传感器数据的端到端深度学习人物检测器(LFE-PPN),避免了手工特征预处理,在ROS中实现超过500 Hz的实时推理速度,为移动机器人环境感知提供了重要工具。

  
FROG数据集:膝高二维激光雷达行人检测的新基准与深度学习模型探索
引言
移动机器人需感知周围环境,尤其是附近的行人。尽管基于计算机视觉的方法最为常见,但机器人上常被忽视的硬件特征——二维激光雷达(2D range finders)——也可用于行人检测。这些传感器通常安装在机器人膝高位置(约踝至膝之间),原本用于避障和地图构建/SLAM任务,但其视场和深度分辨率优于相机,使其成为行人检测的可行选择。本文介绍了名为FROG的新数据集,专为膝高二维激光雷达行人检测设计。与现有数据集(如DROW)相比,FROG数据集具有更高激光分辨率、扫描频率和更完整标注,特别是100%的激光扫描均被标注(DROW仅标注5%),标注扫描量多17倍,行人标注多100倍,机器人移动距离超两倍。作者还提出了基于FROG数据集的基准测试,分析了现有最先进的行人检测器,并评估了一种新的端到端深度学习行人检测方法。该方法直接处理原始传感器数据,无需手工特征预处理,避免了CPU预处理和开发者理解特定领域启发式知识。实验结果显示,所提检测器性能与最先进方法相当,而优化后的ROS实现可操作于超过500 Hz。
相关工作
在二维激光雷达标注数据集方面,现有数据集多聚焦自动驾驶任务(如nuScenes、KITTI、PedX),或涉及其他传感器(如JRDB、SCAND)。专注于二维激光雷达行人标注的数据集较少,DROW数据集是主要代表,但其仅标注5%扫描,且验证集比训练/测试集更具挑战性。新近的Sixth Sense数据集利用额外传感器进行无监督检测,但数据量小且全为室内场景。在行人检测器方面,早期方法使用手工特征和经典算法(如Arras等人的腿检测器),后来深度学习方法兴起。DROW探测器采用“切块”(cutouts)预处理和1D卷积网络,DR-SPAAM在此基础上引入时空注意力和自回归模型。Li2Former使用Transformer架构,但增加了复杂性。这些方法通常结合深度学习与非深度预处理/后处理步骤,导致计算开销大。本文旨在推动去除这些非深度步骤的研究。
FROG数据集
FROG数据集采集自西班牙塞维利亚皇家阿尔卡萨宫(年访客超150万),涵盖室内外多种场景,包括拥挤区域和具有挑战性的特征(如柱子、灌木、斜坡)。数据集包含超过40万次激光扫描(全部标注),超100万行人标注,约3小时记录时间,总移动距离超10公里。机器人平台前端安装二维激光雷达(视场180°,最大检测距离10米)。与DROW相比,FROG在扫描标注比例、行人数量、距离等方面均显著优势。标注工具基于ROS开发,支持图形化界面和半自动跟踪,输出多种格式(如HDF5),便于高效加载和处理。数据集采用机器人标准坐标系(X轴前向,Y轴左向,角度逆时针为正)。
行人检测
作者提出新的端到端深度学习网络,包括激光特征提取器(Laser Feature Extractor, LFE)和行人提议网络(People Proposal Network, PPN)。LFE为全卷积网络,从一维距离测量向量中提取特征,结构受U-Net、ResNet等启发,包含残差块和深度可分离卷积,生成多尺度特征。PPN基于Faster R-CNN的区域提议网络(RPN)思想,适应激光数据的极坐标特性,使用锚点网格(角度和深度扇区)生成行人中心提议,并回归距离和弧长偏移。训练采用结合二元交叉熵和Dice损失的分类损失,以及Smooth L1回归损失。推理时通过非极大值抑制(NMS)过滤提议。该方法避免了手工切块和投票聚合等非深度步骤,实现完全基于深度学习的人物检测。
FROG基准测试
作者建立了基准测试代码库,评估了多种检测器:ROS leg_detector(经典基线)、PeTra(基于分割的腿检测器)、DROW3、DR-SPAAM(切块方法)、以及本文的LFE-Peaks(LFE分割后经典后处理)和LFE-PPN。评估指标包括平均精度(AP)、峰值F1分数、等错误率(EER)和推理时间。结果显示,切块方法(DROW3、DR-SPAAM)整体指标最佳;本文的LFE-PPN在低召回/高精度区域表现优异,且推理速度最快(<2 ms)。作者指出AP指标可能偏向生成大量低置信度猜测的方法,而峰值F1和EER更公平。定性评估视频展示了各检测器在不同环境(室内、室外、拥挤场景)下的表现,分析了误检情况。
结论与未来工作
FROG数据集为二维激光雷达行人检测提供了新资源,作者提出的端到端深度学习模型展示了替代非深度步骤的潜力。未来工作包括改进模型性能、优化边缘设备部署、扩展数据集用于泛化能力研究,以及探索自监督方法和多传感器融合。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号