从“所见”到“未见”：利用基础模型重塑观察-指令机制，以增强视觉-语言导航能力

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《IEEE Transactions on Neural Networks and Learning Systems》：Unseen From Seen: Rewriting Observation-Instruction Using Foundation Models for Augmenting Vision-Language Navigation

【字体：大中小】 时间：2025年11月25日 来源：IEEE Transactions on Neural Networks and Learning Systems 8.9

编辑推荐：

　　数据稀缺严重制约视觉语言导航（VLN）领域智能体的泛化能力，传统方法依赖额外模拟数据或人工标注网页素材存在局限性。本文提出RAM框架，通过重写人类标注数据直接生成未见环境下的观察-指令对：结合VLM与LLM实现物体丰富场景描述的文本到图像生成，利用观察对比机制对齐指令，采用混合训练策略结合随机裁剪增强数据多样性。实验在离散与连续环境中均验证了该方法在性能与泛化能力上的优势。

摘要：

数据稀缺一直是视觉语言导航（VLN）领域长期面临的挑战，这极大地限制了智能体对未见环境的泛化能力。以往的研究主要依赖于额外的模拟器数据或从网络上收集的图像/视频来提高泛化性能。然而，模拟器环境的多样性仍然有限，而从网络上收集的数据往往需要大量的人工劳动来去除噪声。在本文中，我们提出了一种基于重写驱动的增强方法（Rewriting-driven AugMentation，简称RAM），该方法通过重写人类标注的训练数据直接生成未见过的观察-指令对。得益于我们的重写机制，可以在无需模拟器且节省劳动力的情况下获得新的观察-指令对，从而促进泛化能力的提升。具体而言，我们首先引入了对象增强的观察重写方法，将视觉语言模型（VLMs）与大型语言模型（LLMs）结合，生成包含丰富对象信息的场景描述，并通过文本到图像生成模型（T2IMs）实现观察内容的合成。接着，我们提出了观察对比指令重写方法，要求LLMs推理原始观察与新观察之间的差异，从而生成与观察结果对齐的重写指令。此外，我们还开发了一种混合-聚焦训练策略，并采用随机观察裁剪方案，在训练过程中有效增强了数据分布的多样性，同时降低了增强数据的噪声。在离散环境（R2R、REVERIE和R4R数据集）和连续环境（R2R-CE数据集）上的实验均证明了我们方法的卓越性能和出色的泛化能力。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号