基于全局-局部多粒度Transformer的高光谱图像分类新方法
《IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing》:Global–Local Multigranularity Transformer for Hyperspectral Image Classification
【字体:
大
中
小
】
时间:2025年11月20日
来源:IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing 5.4
编辑推荐:
本文针对高光谱图像分类中传统CNN难以捕捉全局上下文信息、Transformer缺乏多尺度特征提取能力的问题,提出了一种结合CNN与Transformer优势的全局-局部多粒度Transformer(GLMGT)网络。通过多粒度空间特征提取块(MGAFE)和多粒度光谱特征提取块(MGEFE)分别从空间和光谱维度提取多尺度特征,并引入门控前馈模块(GFFM)增强特征选择能力。在七个公开数据集上的实验表明,该方法在OA、AA和Kappa系数上均优于现有先进模型,显著提升了高光谱图像分类精度。
高光谱成像技术能够捕获地物在数百个连续窄波段上的反射信息,形成具有丰富光谱特征的三维数据立方体。这种"图谱合一"的特性使得高光谱图像在环境监测、军事侦察、地质勘探等领域发挥着不可替代的作用。然而,面对高光谱图像分类这一核心任务,研究人员始终在寻找更有效的特征表示方法。
传统机器学习方法如支持向量机(SVM)和随机森林(RF)严重依赖手工特征,难以捕捉高光谱数据中复杂的光谱-空间关联。随着深度学习的发展,卷积神经网络(CNN)通过其局部感受野和参数共享机制,在提取空间特征方面展现出强大能力。从1D-CNN专注于光谱特征,到2D-CNN处理空间信息,再到3D-CNN同时挖掘光谱-空间特征,CNN模型不断演进。然而,固定大小的卷积核限制了CNN捕捉全局上下文信息的能力,这在处理高光谱图像中的复杂地物分布时尤为明显。
近年来,视觉Transformer(ViT)凭借其自注意力机制在计算机视觉领域大放异彩。Transformer能够建立全局依赖关系,克服CNN的局部性限制,在高光谱图像分类中也取得了显著成果。但是,Transformer在提取局部细节和多尺度特征方面存在不足,而高光谱图像中不同地物往往具有不同的尺度特征,这对模型的多尺度感知能力提出了更高要求。
针对这一挑战,西安邮电大学的Meng Zhe团队在《IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing》上发表了一项创新研究,提出了一种全局-局部多粒度Transformer(GLMGT)网络,巧妙地将CNN的局部特征提取能力与Transformer的全局建模优势相结合。
研究团队采用的核心技术方法包括:深度卷积位置嵌入(DCPE)模块动态整合位置信息;多粒度空间特征提取(MGAFE)块通过多尺度局部空间特征增强(MSLAFE)和全局空间注意力(GAA)模块提取空间特征;多粒度光谱特征提取(MGEFE)块通过多尺度局部光谱特征增强(MSLEFE)和全局光谱注意力(GEA)模块挖掘光谱信息;门控前馈模块(GFFM)替代传统MLP,增强局部特征提取能力。实验使用了七个公开数据集,包括Indian Pines、University of Pavia、Houston 2013等经典数据集,以及中国卫星数据集ZY1-02D Huanghekou和GF-5 Yancheng。
GLMGT的整体框架包含四个核心组件。深度卷积位置嵌入(DCPE)采用3×3深度可分离卷积和残差连接,相比传统的绝对位置编码,能够更好地保持平移等变性。多粒度空间特征提取(MGAFE)块中,MSLAFE模块使用并行1×1、3×3、5×5卷积核提取多尺度空间特征,GAA模块通过空间注意力机制建立全局空间关联。多粒度光谱特征提取(MGEFE)块则采用1×1×3、1×1×5、1×1×7的3D卷积核捕获不同粒度的光谱特征,GEA模块构建光谱注意力图来建模通道间依赖关系。
消融实验表明,MGAFE和MGEFE块的串联配置效果最优,其中空间特征提取优先于光谱特征提取的顺序获得了最佳性能。在MSLAFE模块中,1×1、3×3、5×5卷积核的组合在四个数据集上实现了最高分类精度,分别为IP:98.51%、UP:98.49%、HT:98.10%、KSC:99.74%。同样,MSLEFE模块中1×1×3、1×1×5、1×1×7的卷积核组合也取得了最优结果。
研究团队比较了不同注意力模块的配置效果,发现MGAFE+GEA的组合显著优于传统的多头自注意力(MHSA)模块。这表明针对高光谱数据特性设计的专用注意力机制,比通用的自注意力机制更能有效捕捉空间-光谱特征之间的复杂关系。
GFFM模块通过门控机制和深度可分离卷积的引入,在四个数据集上相比传统MLP带来了明显提升,其中在IP数据集上OA提高了2.71%,证明了门控机制在特征选择方面的有效性。
与MSRN、DSSAN、LGG-CNN等CNN模型以及Spectralformer、morphFormer、MSFAT等Transformer模型相比,GLMGT在七个数据集上均取得了最优异的分类性能。在Indian Pines数据集上,GLMGT的总体分类精度(OA)达到98.51%,平均精度(AA)为98.31%,Kappa系数为98.23%,显著优于其他对比模型。
在不同训练样本比例下的实验表明,GLMGT在训练数据有限的情况下仍能保持稳健性能。在University of Pavia数据集上,当训练样本比例仅为0.1%时,GLMGT仍能达到88%的OA,而对比方法Spectralformer的OA仅为71%左右,证明了GLMGT在小样本场景下的优越性。
分类结果图显示,GLMGT产生的分类图最接近真实地物分布,噪声像素最少。特别是在地物边界和复杂区域,GLMGT能够更准确地识别不同地物类别,减少了误分类现象。
本研究提出的GLMGT网络通过深度融合CNN和Transformer的优势,在高光谱图像分类任务上实现了突破性进展。该方法不仅解决了传统CNN模型全局感知能力不足和Transformer模型局部特征提取较弱的问题,还通过多粒度特征提取机制增强了对不同尺度地物的识别能力。
GLMGT的创新性体现在多个方面:首先,通过DCPE模块实现了更有效的位置信息编码;其次,MGAFE和MGEFE模块分别从空间和光谱维度进行了多粒度特征学习;最后,GFFM模块通过门控机制优化了特征传播过程。这些设计使得模型能够同时捕捉局部细节和全局上下文,适应高光谱图像中复杂的地物分布特征。
在七个多样化数据集上的广泛实验证明了GLMGT的通用性和鲁棒性。与当前最先进的方法相比,GLMGT在分类精度、小样本学习能力和分类图质量方面均表现出明显优势。特别是在中国自主获取的卫星高光谱数据集上的优异表现,展现了该方法在实际应用中的巨大潜力。
这项研究为高光谱图像分析提供了新的技术思路,不仅推动了遥感图像处理技术的发展,也为相关应用领域如精准农业、环境监测、资源勘探等提供了更可靠的技术支撑。未来,该方法可以进一步扩展到其他遥感图像处理任务,如目标检测、变化检测等,具有广阔的应用前景。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号