通过选择性视角类别集成提升遥感目标检测性能

《Engineering Applications of Artificial Intelligence》:Enhancing remote sensing object detection via selective-perspective-class integration

【字体: 时间:2025年12月06日 来源:Engineering Applications of Artificial Intelligence 8

编辑推荐:

  针对遥感图像目标检测中的极端尺度变化、密集分布和复杂背景问题,提出YOLO-SPCI框架,通过SPCI模块融合全局上下文、多尺度特征和类间可分离性,在三个数据集上验证优于现有方法。

  
Xinyuan Wang | Lian Peng | Xiangcheng Li | Yilin He | KinTak U
澳门科技大学创新工程学院,中国澳门

摘要

在遥感图像中,目标检测一直面临着极端尺度变化、密集分布的目标物体和杂乱背景等挑战。尽管像YOLOv8这样的现代检测器已经取得了有希望的结果,但它们的主干网络通常缺乏指导多尺度特征细化的明确机制,这限制了它们在高分辨率航空图像上的性能。在这项工作中,我们提出了You Only Look Once-Selective-Perspective-Class Integration(YOLO-SPCI)这一增强注意力的检测框架,该框架引入了一个轻量级的Selective-Perspective-Class Integration(SPCI)模块来改善特征表示。SPCI模块整合了三个组件:一个用于自适应调节全局特征流的选择性流门(Selective Stream Gate, SSG)、一个用于上下文感知的多尺度融合的视角融合模块(Perspective Fusion Module, PFM)以及一个用于增强类间可区分性的类判别模块(Class Discrimination Module, CDM)。我们将两个SPCI模块嵌入到YOLOv8的主干网络的P3和P5阶段,从而在保持与原始颈部和头部结构完全兼容的同时,实现有效的多尺度特征细化。在西北工业大学非常高分辨率-10数据集(NWPU VHR-10)、光学遥感图像目标检测数据集(DIOR)和遥感目标检测数据集(RSOD)上的实验表明,YOLO-SPCI的性能优于现有的最先进检测器。

引言

遥感目标检测是一项基本任务,在城市规划、环境监测和军事监视等领域有广泛的应用(Li等人,2024c;Zhang等人,2022;Weng等人,2024;Qiao等人,2022;Li等人,2024b;Yue等人,2024;Al-Garadi等人,2024;Li等人,2023b;Liu等人,2024b)。高分辨率航空图像的日益普及提供了丰富的视觉数据,但也带来了重大挑战:极端的目标尺度变化、密集的空间分布和杂乱的背景要求检测器具备强大且具有区分性的多尺度表示能力。
最近的进展,如YOLOv8(Jocher等人,2023)、Deformable DETR(Zhu等人,2021)和PR-Deformable DETR(Chen等人,2024),通过使用先进的主干网络和精细的检测头展示了强大的性能。这些模型通常结合了注意力机制来提升特征质量。然而,直接将这些模块应用于遥感图像仍然存在三个主要限制:首先,大多数注意力机制沿单一维度操作,限制了它们整合多样化上下文线索的能力;其次,局部依赖性建模往往以牺牲全局上下文或类感知相关性为代价,而这对于密集的航空场景至关重要;第三,为自然图像基准设计的现有模块在扩展到高分辨率遥感输入时可能会产生过高的计算成本。为了解决这些问题,我们提出了Selective-Perspective-Class Integration(SPCI)模块,它通过在一个轻量级结构中统一全局特征控制、多尺度融合和类感知细化,与之前的注意力设计不同。这些组件直接集成在主干网络中,以在保持效率的同时增强跨尺度的表示能力。
为了更好地说明这些挑战以及我们方法背后的理由,图1展示了问题的视觉概述和我们的解决方案。左列描绘了遥感目标检测中三个主要挑战的代表性案例:极端尺度变化、密集的空间分布和杂乱的背景。中间列概述了SPCI所解决的相应设计考虑,它以统一的方式整合了互补策略来应对每个挑战。右列展示了示例目标注释,作为预期改进的概念参考。受这些挑战的指导,我们的工作专注于在保持计算效率的同时提高目标敏感性和类区分性。所提出的方法专为具有标准水平边界框的光学航空图像设计。
具体来说,SPCI模块从三个互补的维度增强了特征表示:(1)选择性流门(SSG),用于捕获长距离依赖关系并自适应控制信息流;(2)视角融合模块(PFM),用于聚合多路径上下文特征;(3)类判别模块(CDM),用于细化类感知结构以提高语义可区分性。这三个组件被整合到一个统一的模块中,可以灵活地嵌入到标准的主干网络中。我们在YOLOv8主干网络的P3和P5阶段实例化了两个SPCI模块,旨在同时改善小目标定位和大目标识别,同时保持颈部和检测头的不变,以确保兼容性和公平比较。
我们的主要贡献总结如下:
  • 我们提出了一种新颖的Selective-Perspective-Class Integration(SPCI)模块,将全局上下文建模、多路径融合和类判别细化统一到一个轻量级的注意力单元中。
  • 我们将SPCI集成到YOLOv8主干网络的低级和高级阶段,提高了跨尺度的特征质量,同时保持了架构的简洁性和高效率。
  • 我们在三个遥感基准数据集NWPU VHR-10、DIOR和RSOD上验证了所提出的YOLO-SPCI,在准确性和速度方面始终优于现有的最佳基线,证明了其在具有挑战性的遥感检测场景中的有效性和泛化能力。

相关工作

相关工作

首先,我们提供了目标检测的最新进展概述,包括多尺度检测方法、注意力机制及其在遥感场景中的应用。

方法

本节介绍了所提出方法的总体架构和核心组件。SPCI模块整合了三个功能互补的组件:选择性流门(Selective Stream Gate, SSG)、视角融合模块(Perspective Fusion Module, PFM)和类判别模块(Class Discrimination Module, CDM)。这些组件被共同组织成一个统一且轻量级的结构,可以灵活地嵌入到主流检测主干网络中。

实验

在本节中,我们通过在三个广泛使用的遥感基准数据集NWPU VHR-10、DIOR和RSOD上进行的一系列实验来评估所提出的SPCI模块。NWPU VHR-10数据集用于研究该模块处理小目标、密集布局和复杂背景的能力。DIOR数据集提供了一个大规模且语义多样化的测试平台,用于评估跨领域泛化能力。此外,RSOD数据集作为一个紧凑但具有挑战性的基准

结论

我们提出了YOLO-SPCI,这是一种轻量级但有效的遥感图像目标检测器,它将SPCI模块集成到YOLOv8主干网络中。与沿单一维度操作或依赖复杂预训练流程的现有基于注意力的方法不同,YOLO-SPCI引入了一个紧凑的、集成在主干网络中的模块,通过结合使用SSG、PFM和CDM来增强多尺度和类感知特征。实验结果显示了一致的改进

CRediT作者贡献声明

Xinyuan Wang:写作 – 审稿与编辑、撰写原始草稿、可视化、验证、软件、方法论、形式分析、数据整理、概念化。Lian Peng:写作 – 审稿与编辑。Xiangcheng Li:写作 – 审稿与编辑。Yilin He:验证。KinTak U:写作 – 审稿与编辑、监督、项目管理。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号