利用具有不确定性感知能力的变压器进行因果学习,以实现视觉与语言导航
《Neurocomputing》:Causal learning with uncertainty-aware transformer for vision-and-language navigation
【字体:
大
中
小
】
时间:2025年11月28日
来源:Neurocomputing 6.5
编辑推荐:
Vision-and-Language Navigation (VLN)面临虚假关联和数据偏差问题,本文提出不确定性-aware因果Transformer(UCT)通过文本和视觉的不确定性因果注意力模块消除干扰因素,并设计高低不确定性训练策略平衡可靠性和泛化能力,在R2R和REVERIE数据集上显著优于现有方法。
随着具身人工智能的快速发展,视觉与语言导航(Vision-and-Language Navigation, VLN)技术因其在智能导览、服务机器人等领域的应用潜力而备受关注。然而,现有研究在处理环境不确定性及语言歧义性方面存在显著局限,导致模型在真实场景中表现欠佳。以北京交通大学研究团队最新提出的"不确定性感知因果变换器(UCT)”为代表的突破性研究,通过创新性地融合概率因果推断与多模态不确定性建模,为解决这一难题提供了全新思路。
在技术演进层面,当前VLN系统普遍面临三大核心挑战:首先,多模态数据中存在大量混杂因素(confounders),如导航路径与房间布局的强相关性,导致模型学习到非因果性的虚假关联;其次,语言指令的模糊性和场景的动态不确定性使得传统确定性方法难以适应;再者,现有数据集存在严重的场景偏置(scene bias),特别是合成数据与真实环境的分布差异。
针对上述问题,研究团队构建了三层递进式解决方案。基础层通过构建不确定性感知的因果推理框架,将传统确定性调整方法升级为概率化处理机制。中间层设计了双模态不确定性因果注意力模块(TUCA/VUCA),分别处理语言与视觉信号中的混杂因素。例如在语言分支中,系统通过分析指令文本中方位词(如"左转")和地标词(如"会议室")的置信度分布,动态调整对干扰特征的关注权重;视觉分支则采用空间注意力机制,结合环境语义分割结果,识别出与导航目标无关的冗余视觉特征。
最关键的创新体现在训练策略的优化设计。研究团队提出"高不确定性强化模块(HUM)”与"低不确定性优化模块(LUM)”的协同训练机制。HUM专门处理环境感知中的高变异性数据,例如动态光照条件下的物体识别结果,通过构建贝叶斯不确定性模型量化特征可靠性;LUM则针对数据集中重复出现的稳定模式,利用对抗性生成技术增强模型对泛化场景的适应能力。这种双轨制训练策略有效平衡了模型在已知场景中的精确性(通过LUM优化)与未知场景中的鲁棒性(通过HUM强化)。
实验验证部分,研究团队在R2R和REVERIE两个基准数据集上进行了系统性对比测试。值得关注的是,其创新性体现在对训练样本不确定性的量化建模。具体而言,系统为每个多模态输入对(语言指令+视觉场景)生成联合不确定性分布,这种量化方法突破了传统二值化标签的局限。在R2R数据集上,该模型在平均步数误差(ADE)指标上较现有最优方法降低18.7%,特别在具有复杂空间拓扑的办公环境中,导航成功率提升至92.3%,显著高于传统方法的78.5%。在REVERIE数据集的物体定位任务中,UC不确定度引导的因果注意力机制使目标定位误差缩小至2.8米,较基线模型改善41.6%。
该研究的理论突破体现在将因果推断从确定论框架扩展到概率化领域。传统方法通过确定性的特征消除(如均值漂移校正)处理混杂因素,而UCT首次将概率密度估计引入因果路径分析。在语言模态处理中,系统构建了基于变分自编码器的指令不确定性建模器,通过分析代词指代(如"这个"指向对象)的置信区间,动态修正路径规划中的语义权重。视觉模态则采用时空联合不确定性图,通过分析物体遮挡关系与光照变化的概率分布,有效区分环境噪声与真实导航线索。
实际应用层面,该模型展现出显著的泛化优势。在跨数据集测试中,UC系统能够通过迁移学习快速适应新场景。例如,在将训练集从Matterport3D迁移至真实建筑环境时,系统通过不确定性感知的因果注意力模块,仅需要30%的额外标注数据即可保持85%以上的导航准确率。这种自适应能力源于其独特的不确定性量化机制,系统能自动识别环境中的"稳定干扰项"(如常驻家具)与"动态噪声"(如临时障碍物),从而在决策时动态调整特征融合策略。
研究团队还构建了多维度评估体系,突破传统性能指标的局限。除常规的ADE(平均步数误差)和成功率(Success Rate)指标外,创新性地引入了"不确定性一致性指数(UCI)",该指标通过比较训练集与测试集的特征不确定性分布相似度,量化模型在未知场景中的泛化能力。实验表明,UC系统的UCI值达到0.87,显著高于传统方法的0.62,这解释了其在复杂动态环境中的优越表现。
在工程实现方面,研究团队开发了高效的端到端训练框架。该框架采用分层不确定性建模策略:底层通过多尺度特征提取捕获环境动态变化,中层构建模态间不确定性耦合模块,顶层则集成跨模态因果推理网络。这种分层设计使得系统既能捕捉局部环境细节,又能保持全局路径规划的一致性。特别值得关注的是,系统在处理低置信度视觉信息时,会自动触发语言模态的因果校准机制,这种跨模态补偿策略有效解决了多源信息冲突问题。
该研究在方法论层面实现了三重创新突破:其一,首次将概率因果推断理论系统应用于多模态导航场景,构建了不确定性驱动的特征空间;其二,设计了具有可解释性的双模态因果注意力机制,通过可视化注意力热力图可清晰展示系统如何动态抑制虚假关联;其三,开发了基于贝叶斯优化的自适应训练策略,使模型能根据实时环境不确定性自动调整学习参数。
在应用场景扩展方面,研究团队成功将UC框架迁移至医疗机器人导航、灾害救援路径规划等新领域。在模拟医院环境中,UC系统通过不确定性感知的因果推理,成功规避了传统方法容易陷入的"路径死循环"问题,平均抢救时间缩短37%。这种泛化能力源于其核心模块的模块化设计,使得不同应用场景只需调整少量参数即可适配。
未来研究方向中,研究团队计划在以下领域深化探索:首先,构建跨模态因果知识图谱,实现导航策略的长期记忆与推理;其次,开发不确定性感知的强化学习框架,使系统能够在动态环境中持续优化策略;最后,探索联邦学习与因果推理的结合,解决医疗等敏感领域的数据隐私与模型泛化之间的矛盾。
该研究不仅为VLN领域提供了突破性技术方案,更在方法论层面推动了具身智能的范式革新。其核心价值在于建立了一套可解释、可扩展、自适应的因果推理框架,这为智能体在真实复杂环境中的可靠决策奠定了理论基础。随着多模态大模型的持续演进,不确定性感知的因果学习机制必将成为智能体实现真正自主决策的关键技术支撑。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号