用于 RGBT 跟踪的跨模态引导注意力机制
《Information Fusion》:Cross-modal Guiding Attention for RGBT Tracking
【字体:
大
中
小
】
时间:2025年12月05日
来源:Information Fusion 15.5
编辑推荐:
RGBT跟踪通过整合RGB和热红外模态信息提升多场景鲁棒性,现有Transformer方法依赖自注意力与跨注意力机制,但低质量表征易干扰跨模态交互。本文提出Cross-modal Guiding Attention(CGA)机制,包含双向权重引导模块(BiWGM)和双向特征引导模块(BiFGM),前者通过全局语义重构优化注意力分配以抑制低质量表征,后者联合内模态自增强与跨模态互补提升特征可分性。实验表明,CGATracker在RGBT210、RGBT234、LasHeR和VTUAV数据集上PR得分较SOTA方法提升1.4%,同时保持实时推理速度。
针对RGBT(RGB与热红外)视频跟踪领域的技术挑战,本研究提出了一种基于双向引导注意力机制的跨模态融合方法,显著提升了多模态跟踪的准确性与实时性。当前RGBT跟踪技术普遍采用Transformer架构,通过自注意力机制整合多模态特征,但存在两个关键问题:其一,跨模态注意力计算容易受到低质量特征(如噪声干扰、遮挡模糊或相似场景误匹配)的负面影响;其二,现有方法在提升计算效率的同时,往往忽视了对模态间信息交互的质量控制。
传统Transformer模型在处理RGB与TIR双模态数据时,存在两种典型设计思路:一种是Xia等人提出的"特征拼接+自注意力"方案,通过将多模态特征向量拼接后进行单模态自注意力计算,有效降低计算复杂度;另一种是Hui等人提出的"模板引导跨注意力"方法,利用预定义的模板区域实现跨模态特征关联。然而,这两种方法在应对实际场景中的模态不匹配问题时存在明显局限。当某一路径(如热红外图像)存在大面积噪声或目标遮挡时,其低质量特征会通过跨模态注意力扩散到另一模态,导致目标表征信息被污染,最终影响跟踪稳定性。
本研究提出的CGA(Cross-Modal Guiding Attention)机制通过双向质量自适应控制,构建了多模态特征处理的闭环优化体系。核心创新体现在两个模块的协同工作:BiWGM(双向权重引导模块)负责动态调整跨模态注意力权重,通过全局语义重构实现低质量特征的主动隔离;BiFGM(双向特征增强模块)则构建特征质量评估体系,对双模态特征进行分级强化。这种双轨并行机制既保证了跨模态信息交互的有效性,又实现了对噪声特征的智能过滤。
在BiWGM模块中,系统首先对双模态特征向量进行质量评估,建立基于语义相似度的动态权重分配机制。当检测到某模态特征存在显著噪声(如热红外图像中的运动模糊或RGB图像中的低照度干扰),系统自动降低该模态特征的跨模态注意力权重参与系数,同时提升高质量模态的特征引导强度。这种全局语义层面的权重调整,使得跨模态信息交互仅发生在高置信度的特征对之间,有效避免了低质量特征的干扰。
BiFGM模块采用质量感知的特征增强策略,其创新性体现在两个维度:首先,建立跨模态特征质量评估矩阵,通过对比双模态特征的一致性指数,动态识别并强化关键区域特征;其次,引入双向信息流设计,既允许RGB模态通过热红外的高分辨率背景信息进行特征优化,也支持热红外模态利用RGB的语义上下文进行细节补充。这种双向增强机制使得在目标部分遮挡或光照剧烈变化的场景中,仍能保持特征表示的连续性。
实验验证部分,研究团队在RGBT210、RGBT234、LasHeR和VTUAV四个基准数据集上进行了全面测试。特别值得注意的是,在LasHeR数据集的复杂场景测试中,CGATrack展现出显著优势:在跟踪精度(PR值提升1.4%)和计算效率(速度提升23%)之间取得了平衡。消融实验进一步证实,BiWGM模块单独使用可使PR值提升0.8%,而BiFGM模块则能将跟踪稳定性提升17%,两者协同工作带来的增益达到1.2个百分点。
技术落地方面,研究团队实现了对主流Transformer架构(如ViT)的模块化替换方案,CGA模块可无缝集成到现有多模态跟踪框架中。这种设计使得算法既保持了Transformer模型的全局语义建模优势,又通过模块级优化实现了计算效率与鲁棒性的双重突破。实际部署测试显示,在NVIDIA T4 GPU上,CGATrack的单帧处理时间稳定在8ms以内,满足工业级实时跟踪需求。
在应用场景拓展方面,研究团队特别针对自动驾驶和安防监控中的典型问题进行了优化。例如,在逆光条件下,系统通过动态调整双模态特征的引导权重,有效抑制了因光照不均导致的特征误匹配。在密集人群场景中,双向特征增强机制成功分离了目标与背景噪声,使跟踪准确率提升了12.6%。这些改进为多模态跟踪技术在复杂环境中的应用奠定了基础。
本研究的理论价值体现在建立了多模态特征处理的闭环质量控制系统。通过构建"质量评估-权重分配-特征增强"的递归优化机制,首次实现了跨模态注意力计算的全局质量约束。实验数据表明,这种机制在跟踪初始阶段(前3帧)的错误传播抑制效果最为显著,使系统在跟踪建立阶段的关键特征提取准确率提升了19.8%。
在工程实践层面,研究团队提供了完整的模型部署方案。通过将CGA模块替换ViT中的标准自注意力层,开发者可以快速迁移现有多模态模型架构。特别设计的质量评估矩阵支持硬件加速优化,在ARM Cortex-A72处理器上的实测表明,模型推理速度较传统方案提升约40%,同时保持98%以上的精度一致性。
未来研究将聚焦于动态模态权重分配机制和轻量化注意力计算框架的优化。计划引入时序自适应模块,根据场景变化自动调整RGB与TIR模态的权重分配比例。同时,探索基于神经架构搜索(NAS)的自适应模块配置方案,进一步提升模型泛化能力。这些技术演进将推动多模态跟踪系统在智慧城市、工业自动化等领域的实际应用落地。
该研究为多模态跟踪技术提供了新的范式,其双向质量引导机制不仅解决了传统方法中存在的模态污染问题,更在计算效率与跟踪精度之间实现了最优平衡。通过模块化的设计理念,使得技术方案能够灵活适配现有视觉跟踪框架,为行业应用提供了可扩展的技术路径。实验结果证实,在主流硬件平台(如消费级GPU和嵌入式处理器)上,该方案兼具高精度与实时性优势,为多模态跟踪技术的工程化落地提供了可靠保障。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号