无监督的多模态领域适应用于RGB-T语义分割
《Computer Vision and Image Understanding》:Unsupervised multi-modal domain adaptation for RGB-T Semantic Segmentation
【字体:
大
中
小
】
时间:2025年12月05日
来源:Computer Vision and Image Understanding 3.5
编辑推荐:
语义分割在可见光与热红外图像中结合多模态领域自适应方法,通过自蒸馏损失和时空注意力模块解决跨域差异与数据稀缺问题,在夜间及恶劣天气下保持高分割精度。
陈泽阳|林春宇|赵瑶|塔玛姆·蒂洛
北京交通大学信息科学研究所,北京,100044,中国
摘要
本文提出了一种无监督的多模态领域适应方法,用于可见光和热图像的语义分割。该方法通过从现有的语义分割网络中迁移知识来解决数据稀缺的问题,从而避免了与数据标注相关的高成本。我们考虑了温度和光照的变化,以减少白天和夜晚捕获的可见光与热图像之间的领域内差异。此外,我们使用自蒸馏损失来缩小可见光与热图像之间的领域间差异。我们的方法能够在无需注释的情况下实现高质量的语义分割,即使在夜间和恶劣天气等具有挑战性的条件下也是如此。在可见光和热图像基准数据集上进行的实验从定量和定性的角度证明了该方法的有效性。
引言
高质量的语义分割(Yin等人,2025年;Lu等人,2025年;Tang等人,2025年;Wu等人,2024年;Marsh和Wu,2025年)对于自动驾驶来说至关重要,因为它有助于理解场景并提供丰富的环境信息。各种现有的分割网络已经在大规模标记的RGB数据集(Sakaridis等人,2021年;Cordts等人,2016年)上开发出来,并在光照充足的条件下取得了出色的性能。然而,网络的性能可能会受到低光照环境和危险条件(如黑暗、雾天和雪天)的显著影响。热红外传感器能够捕捉物体的温度,这种温度不受外部环境可见性的影响。尽管如此,热传感器无法捕捉到足够的纹理细节,并且容易受到温度变化的影响。因此,仅依赖单一传感器不足以理解复杂场景。RGB图像能够捕捉到颜色和纹理等详细的外观特征,这些特征对于分割具有独特视觉模式的物体非常有用。然而,它们对低光照和遮挡非常敏感。热图像通过捕捉发出的热量,在具有挑战性的条件下仍然保持稳健,并且能够更好地识别人或骑手等物体。通过利用这两种模态的互补优势,模型可以在不同的环境条件下实现对各种物体类型的更准确分割(Ma等人,2019a);最近的研究(Zhang等人,2022年)利用RGB和热图像中的互补信息实现了更精确的分割结果。基于多模态的语义分割在这方面提供了强大的支持,提高了准确性和稳健性(Yi等人,2022年)。
RGB和多光谱传感器融合方法的结合(Zhang等人,2022年)主要受益于具有详细标签的公开可用数据集。Zhang等人(2021年)中的ABMDRNet模块通过应用互补信息减少了模态之间的差异。此外,Zhang等人(2022年)中的CMXNet模型通过全局最大池化和全局平均池化考虑了通道级和空间级的特征校正。然而,获取成对的RGB-热(RGB-T)图像和获取像素级注释是非常耗时的。这些挑战经常限制了此类方法的发展,并导致分割结果不够理想。对于语义分割来说,注释的成本特别高,因为每个像素都必须被标注。在Cityscapes数据集中标注单张图像需要一个多小时的时间(Cordts等人,2016年),而在恶劣天气条件下标注图像需要大量的时间(Sakaridis等人,2021年)。
为了减少对标记数据的需求,我们利用无监督领域适应(UDA)将大规模数据集中的知识迁移到较小的数据集中。此外,大多数UDA方法强调RGB模态内不同环境之间的领域差异,例如从GTAV到Cityscapes(Xu等人,2022年)。然而,它们忽略了其他传感器提供的互补信息。此外,温度和光照的变化对热图像有显著影响。很少有数据集包含在不同温度和光照条件下的RGB-T图像,这会降低分割网络的稳健性。为了解决这个问题,一种重要的方法是调整合成图像以匹配真实世界的数据集。我们应用UDA技术将知识从源领域迁移到目标领域(Wilson和Cook,2020年),例如从白天到夜晚的适应以及从RGB到热的适应。
在这项工作中,我们旨在解决数据不足的问题并提高分割网络的稳健性。我们提出了一种用于RGB-T图像语义分割的无监督多模态领域适应方法,如图1所示。从大规模标记数据集上预训练的分割网络中的知识通过生成的伪标签传递到分割预测中。此外,我们设计了一个全局上下文注意力(GCA)模块和一个局部上下文注意力(LCA)模块,以最小化每种模态内的领域内差异,从而在不同的温度和光照条件下提高分割性能。同时,还减少了RGB和热领域之间的领域间差异。通过自蒸馏损失学习互补表示,以传递特定于模态的知识。此外,采用融合RGB和融合热模态之间的自蒸馏损失来减轻在黑暗条件下的性能下降。
实验表明,尽管UMDA是在没有任何目标领域标记数据的情况下训练的,但其语义分割性能与监督式RGB-T分割网络(Ha等人,2017年;Sun等人,2019b年;Shivakumar等人,2020年)相当。
本研究的主要贡献总结如下:
我们提出了一种用于RGB-热图像语义分割的无监督多模态领域适应方法,称为UMDA。
我们研究了RGB-T图像在白天和夜晚的差异,并设计了GCA和LCA模块来模仿温度和光照的变化,从而缩小了源白天领域和目标夜晚领域之间的领域内差异,提高了我们模型的稳健性。
我们提出了自蒸馏损失来最小化RGB分支和热分支之间的领域间差异,并设计了伪标签和分割结果之间的损失函数,以便从现有的大规模数据集中传递知识。
相关工作
相关工作
在本节中,我们介绍了一些关于多模态语义分割、无监督领域适应和多模态领域适应的最新研究。
提出的方法
在本节中,我们详细介绍了第3.1节中的UMDA整体系统。在第3.2节中,我们介绍了用于整合白天和夜晚RGB-T图像对的融合模块。然后,在第3.3节中介绍了从大规模标记的RGB-T数据集到小规模未标记的RGB-T数据集传递知识的伪标签。第3.4节将讨论多模态领域适应。
实验
本节首先评估了所提出的RGB-T语义分割模型的有效性。然后介绍了用于训练和验证的数据集。
结论
在本文中,我们提出了一种用于RGB-T图像语义分割的无监督多模态领域适应方法。所提出的模型通过生成伪标签来传递知识,从而提高了准确性,并结合了多模态领域适应和从白天到夜晚的RGB-T图像转换。此外,我们设计了图像融合模块来整合源白天图像和目标夜晚图像,从而提高了系统的稳健性。
CRediT作者贡献声明
陈泽阳:撰写——原始草稿、可视化、验证、方法论、概念化。林春宇:撰写——审阅与编辑、监督、资金获取。赵瑶:撰写——审阅与编辑、监督、方法论。塔玛姆·蒂洛:撰写——审阅与编辑、监督、方法论。
利益冲突声明
作者声明以下可能被视为潜在利益冲突的财务利益/个人关系:林春宇报告称,他获得了中国国家自然科学基金会的财务支持、设备、药品或物资以及旅行费用。如果有其他作者,他们声明没有已知的可能会影响本文所述工作的财务利益或个人关系。
致谢
本项工作得到了中国国家自然科学基金会(编号:U2441242,编号:62172032)的支持。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号