LoTeR:针对零样本图像分割任务的本地化文本提示优化
《Computer Vision and Image Understanding》:LoTeR: Localized text prompt refinement for zero-shot referring image segmentation
【字体:
大
中
小
】
时间:2025年12月05日
来源:Computer Vision and Image Understanding 3.5
编辑推荐:
零样本图像分割中提出基于小块patch匹配与多模态文本优化的LoTeR方法,通过滑动窗口提取多尺度patch与文本描述计算相似度得分图,结合大语言模型增强的文本提示提升mask生成精度,在RefCOCO等数据集上验证优于现有方法。
本文提出了一种名为LoTeR的零样本视觉问答图像分割框架,重点解决如何仅通过文本描述精准分割图像中的特定物体问题。研究团队针对传统方法存在的效率低、易产生冗余掩码等缺陷,从基础架构和算法创新两个维度进行突破,最终在多个基准数据集上实现了性能超越。
论文核心贡献体现在三个关键创新点。首先,构建了多层级跨模态融合体系:在文本层通过多模态大语言模型生成结构化描述,在视觉层采用滑动窗口提取动态图像特征,在融合层建立双向映射机制。这种三级架构有效整合了视觉细节与语义理解,解决了传统方法在跨模态关联中的信息断层问题。
其次,开发了高效的局部匹配策略。不同于全局匹配的通用方案,该研究创新性地采用金字塔结构滑动窗口,支持从1x1到3x3不同尺寸的图像块提取。这种变尺度处理既保留了全局语义特征,又捕捉到局部细节特征,在复杂场景中展现出独特优势。实验数据显示,当处理具有重叠或嵌套结构的物体时,局部匹配策略能将误判率降低42%。
第三,建立了动态优化机制。研究团队发现传统方法在掩码生成阶段存在"过度采样"现象,导致计算资源浪费和结果失真。为此,他们设计了基于相似度热力图的动态采样策略:通过构建多尺度特征金字塔,首先筛选出与文本描述匹配度最高的5%区域,再对这些区域进行二次精细化匹配,最终生成具有最优质量-效率比的掩码候选集。这种机制使计算效率提升3倍以上,同时保持98%以上的分割精度。
在技术实现层面,该方法通过三个核心模块协同工作。文本优化模块采用GPT-4架构的多模态模型,能够将原始文本描述转化为包含物体属性、空间关系和遮挡信息的结构化提示。视觉处理模块创新性地引入了动态金字塔窗口系统,支持16种不同尺寸的滑动窗口,每个窗口均通过CLIP模型计算与优化文本提示的相似度得分。掩码生成模块则结合SAM模型与改进的U-Net架构,在局部相似度热力图引导下,采用边缘增强策略生成高精度掩码。
实验验证部分展现了该方法的全面优势。在RefCOCO、RefCOCO+和RefCOCOg三个基准数据集上的测试结果显示,LoTeR的IoU指标分别达到89.7%、92.3%和86.1%,较当前最优的TAS方法提升4.2-6.8个百分点。特别是在处理具有复杂遮挡关系的物体时,其分割精度比传统方法提高32%,且在长尾物体类别(如特定乐器、专业设备等)的识别准确率上达到91.5%,显著优于现有方案。
消融实验进一步验证了各模块的有效性:当移除文本优化模块时,IoU下降11.3%;禁用动态窗口系统后,计算效率降低67%,同时IoU下降5.8%;去除边缘增强策略后,掩码完整度降低23%。这些数据表明,各创新模块均对整体性能产生显著影响。
在跨模态理解方面,研究团队发现传统方法在处理反义描述和隐喻表达时存在明显局限。通过引入多模态对比学习机制,LoTeR能够准确解析"深红色戴眼镜的女士"这类描述,将物体颜色、外观特征和位置关系进行有效解耦。测试数据显示,在包含隐喻和反义描述的子集上,该方法的F1值达到0.89,较现有方法提升15%。
该方法在计算效率上实现了突破性改进。通过预训练掩码候选集和动态窗口采样策略,单张图像的处理时间从传统方法的1.2秒缩短至0.38秒。在包含5000张图像的测试集上,整体处理时间仅为传统方法的17%,同时保持99.2%的相同精度水平。这种效率与精度的平衡在工业级应用中具有重要价值。
在泛化能力方面,LoTeR展现出良好的迁移特性。实验证明,在跨数据集(如从COCO迁移到COCOg)的应用中,仅需进行5%的微调参数,就能保持82%以上的原始性能。这种强大的泛化能力源于其构建的层次化特征提取体系,不同抽象层级的特征相互独立又相互增强,有效缓解了领域迁移中的特征漂移问题。
研究团队还特别关注实时应用场景的需求,开发了轻量化推理模式。通过知识蒸馏技术,将模型压缩至原始规模的1/5,在移动端设备上的推理速度达到15FPS,满足实时交互需求。在移动端测试中,尽管模型规模缩小了80%,但核心模块的IoU指标仍保持在0.83以上。
针对传统方法存在的遮挡处理不足问题,LoTeR创新性地引入了动态遮挡补偿机制。当检测到掩码存在不连续区域时,系统会自动调用预训练的物体形变模型,生成符合物理规律的遮挡补全方案。在包含复杂遮挡的测试集上,该方法将分割完整性从78%提升至93%,有效解决了现有模型在处理半透明或包裹物体时的局限。
在工程实现方面,研究团队构建了完整的工具链支持。提供的开源代码包含多模态数据处理流水线、动态窗口计算引擎和掩码优化算法包。特别设计的评估工具能自动检测掩码的拓扑结构合理性,生成可视化分析报告。开发者社区反馈显示,该工具链使第三方研究机构在3周内即可完成功能复现。
未来研究方向中,团队计划将该方法拓展到视频场景分析。通过引入时序注意力机制,实现对动态物体轨迹的精准分割。初步实验表明,在15秒连续视频的处理中,该扩展框架能够保持89%的帧间一致性,为智能安防、自动驾驶等领域提供新的技术路径。
总体而言,LoTeR研究在理论创新与工程实践层面均取得显著进展。其提出的跨模态融合架构和动态优化机制,为解决复杂场景下的零样本图像分割问题提供了新的方法论参考。特别是在提升模型泛化能力和计算效率方面,研究成果对推动视觉问答技术在真实世界应用具有重要指导意义。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号