融合局部与全局特征的光学遥感图像目标检测:CNN-Transformer混合网络新方法

《IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing》:A Hybrid CNN-Transformer Network for Object Detection in Optical Remote Sensing Images: Integrating Local and Global Feature Fusion

【字体: 时间:2025年11月20日 来源:IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing 5.4

编辑推荐:

  本文针对光学遥感图像(RSIs)目标检测中因目标尺度差异大、背景复杂及局部细节易被Transformer自注意力机制覆盖而导致的检测精度不足问题,提出了一种融合局部与全局注意力(LGA)的混合CNN-Transformer模型DConvTrans-LGA。通过引入动态卷积(DConv)模块增强局部特征提取,改进自注意力机制避免局部信息丢失,并设计特征残差金字塔网络(FRPN)优化多尺度特征融合。实验表明,该方法在NWPU VHR-10、HRRSD和DIOR数据集上mAP@0.5分别达到61.7%、82.1%和61.3%,显著提升了对小目标和多尺度目标的检测能力,为遥感图像智能解译提供了新思路。

  
在自然灾害管理、城市规划和资源勘探等领域,高分辨率光学遥感图像(RSIs)的目标检测技术发挥着至关重要的作用。然而,与自然图像(NIs)相比,遥感图像存在显著差异:目标仅从俯视角度采集,同一类目标在不同样本中的尺度变化极大,不同目标间的标注框差异显著,且类别空间分布不均可能导致目标嵌套。这些挑战使得通用目标检测器难以直接应用于遥感图像,亟需设计专用于RSIs的检测方法。
传统基于卷积神经网络(CNN)的方法虽擅长提取局部特征,但缺乏对全局位置信息和上下文关联的建模能力,往往需额外设计注意力模块来增强感知。而基于Transformer的模型虽能捕捉长程依赖,却容易在自注意力机制中覆盖局部细节,导致小目标检测性能下降。此外,高分辨率遥感图像的处理对计算资源要求较高,如何在保持精度的同时提升效率也是一大难题。
为解决上述问题,黄有祥等人提出了一种名为DConvTrans-LGA的混合模型,巧妙结合了CNN的局部特征提取优势与Transformer的全局信息处理能力。该模型的核心创新在于设计了局部全局注意力(LGA)模块,通过动态卷积(DConv)强化局部细节捕获,并在自注意力机制中引入局部注意力(LocalAttn)机制,避免训练过程中局部特征被覆盖。同时,作者还构建了特征残差金字塔网络(FRPN),采用自上而下的策略融合多尺度特征图,进一步提升模型对尺度变化目标的适应性。
在技术方法上,研究团队首先利用动态卷积模块自适应生成卷积核参数,根据输入特征灵活调整感受野,增强对复杂背景和多尺度目标的特征提取能力。其次,在Transformer的自注意力层中,对下采样后的键向量和值向量进行局部注意力处理,保留细节信息。最后,通过特征残差金字塔网络将骨干网络输出的四层特征图进行融合,并额外下采样最后一层特征图以提升小目标检测能力。实验在NWPU VHR-10、HRRSD和DIOR三个典型遥感数据集上进行,评估指标包括精确率、召回率、F1-score和mAP@0.5等。
研究结果表明,DConvTrans-LGA在三个数据集上均取得了领先性能。在NWPU VHR-10数据集上,其mAP@0.5达到61.7%,较Faster R-CNN提升9.4个百分点;在HRRSD数据集上,mAP@0.5为82.1%,优于Swin Transformer等主流模型;在DIOR数据集上,mAP@0.5为61.3%,显著高于CNN和Transformer基线模型。混淆矩阵分析显示,该方法对飞机、船舶等小目标检测效果显著,但对桥梁等结构复杂目标的识别仍有提升空间。此外,参数量和计算量对比表明,该模型在保持较高精度的同时,较纯Transformer模型更轻量。
通过消融实验进一步验证了各模块的贡献。当仅使用DConv模块时,DIOR数据集的mAP@0.5为58.9%;加入LGA模块后提升至60.1%;最终结合FRPN模块时达到61.3%,证明局部全局注意力机制和特征融合策略的有效性。
该研究的结论强调,融合局部与全局特征的混合架构能显著提升遥感图像目标检测的精度和鲁棒性。DConvTrans-LGA不仅克服了传统CNN和Transformer模型的固有缺陷,还为高分辨率遥感图像的实时处理提供了可行方案。未来工作可进一步优化模型效率,并拓展至更多复杂场景的应用中。
本文发表于《IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing》,为遥感图像智能解译领域提供了重要技术参考。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号