一种轻量级的Vision Mamba编码UNet网络,用于医学图像分割

《Engineering Applications of Artificial Intelligence》:A Lightweight Vision Mamba Coding UNet for medical image segmentation

【字体: 时间:2025年10月10日 来源:Engineering Applications of Artificial Intelligence 8

编辑推荐:

  医学图像分割亟需轻量化模型以适配移动医疗场景。本文提出LVMC-UNet,通过RVM模块引入旋转位置编码增强局部特征捕捉,并采用CSF模块结合蓝图分离卷积强化多尺度特征融合,在保持高精度的同时显著降低计算成本,实验验证其在三个医学数据集上的性能优于现有轻量级方法。

  医疗图像分割是医学研究和临床诊断中不可或缺的环节,它能够帮助医生和研究人员更准确地识别病变区域或异常结构,从而为后续的治疗和分析提供依据。随着计算机技术的不断发展,特别是深度学习的广泛应用,越来越多的先进算法被引入到这一领域,显著提升了分割的精度和效率。然而,尽管主流方法如Transformer在性能上表现出色,它们往往伴随着较高的计算成本,这在移动医疗应用中显得尤为突出。因此,如何在保持分割效果的同时,降低模型的计算复杂度,成为当前研究的一个重要方向。

本文提出了一种名为Lightweight Vision Mamba Coding UNet(LVMC-UNet)的新型轻量级图像分割模型,旨在解决现有方法在计算效率和分割精度之间的矛盾。LVMC-UNet结合了Rotation-based Vision Mamba模块(RVM)和Correlation Space Fusion模块(CSF),在结构设计上进行了优化,使其能够在减少计算负担的同时,保持较高的分割准确性。该模型特别适用于资源受限的医疗设备,如移动终端或嵌入式系统,能够在保证性能的前提下,实现更快的处理速度和更低的能耗。

在医学图像分割领域,传统的深度学习方法如卷积神经网络(CNN)和Transformer各具特点。CNN在处理局部特征方面表现出色,但由于其结构限制,难以有效捕捉长距离依赖关系。相比之下,Transformer通过自注意力机制能够更好地建模全局信息,从而在分割任务中取得更优的性能。然而,Transformer的计算复杂度较高,尤其在处理高分辨率图像时,需要大量的计算资源和内存,这在移动设备上并不现实。因此,研究人员开始探索如何在不牺牲性能的前提下,开发更加轻量级的模型架构。

近年来,一些基于Swin Transformer和Vision Transformer的模型被提出,以提升分割效果。例如,Swin-UNet通过引入多级特征提取和自注意力机制,提高了分割精度;TransUNet则结合了CNN和ViT,实现了更高效的特征融合。然而,这些模型往往依赖于复杂的结构设计和大量的参数,导致计算资源消耗较大,难以在实际医疗场景中广泛应用。因此,轻量级模型的开发成为解决这一问题的关键。

本文提出LVMC-UNet的核心思想是利用轻量级的Vision Mamba结构,结合RVM和CSF模块,实现高效的特征提取和融合。Vision Mamba作为一种状态空间模型(SSM),在处理长距离依赖关系时具有显著优势,其计算复杂度与输入规模呈线性关系,从而降低了对计算资源的需求。此外,Vision Mamba在处理图像时不需要自注意力机制,因此能够减少内存占用,提高处理效率。在实际应用中,这种轻量级的结构可以有效适应资源受限的环境,同时保持较高的分割性能。

RVM模块的设计是为了弥补Vision Mamba在局部特征提取方面的不足。通过引入旋转位置编码(RPE),RVM能够在保持全局特征提取能力的同时,增强对局部细节的捕捉。这种设计使得模型能够在处理复杂结构的医学图像时,更加精准地识别病变区域。RVM模块通过并行处理输入图像,实现了对全局特征的高效提取,同时减少了计算负担,使其适用于移动医疗设备。

CSF模块则是为了实现多尺度特征的有效融合。在医学图像分割任务中,目标的大小和形态具有较大差异,因此需要在不同阶段和不同尺度上提取特征。CSF模块通过引入高维和低维特征输入,结合注意力机制,能够同时捕捉通道相关性和空间关系。这种设计使得模型能够在不同尺度上提取有效的特征信息,并通过融合这些信息,提高分割的准确性。此外,CSF模块还采用了蓝图分离卷积(BSConvs),以增强模型内部的特征相关性,从而提升整体性能。

LVMC-UNet的整体架构基于U型设计,由对称的编码器和解码器组成。编码器部分共分为六个阶段,每个阶段的通道数分别为{8, 16, 24, 32, 48, 64}。前三个阶段采用深度可分离卷积(Depthwise Separable Convolutions),以减少计算负担。后三个阶段则引入RVM模块,以增强对图像特征的提取能力。解码器部分则与编码器对称,通过逐步上采样,将提取的特征信息还原为原始图像的分辨率。为了进一步优化模型,本文还提出了一种轻量级的CNN-Mamba框架,结合了dysample上采样器(Liu et al., 2023),以替代传统的双线性插值方法。这种方法不仅提升了分割效果,还保持了模型的轻量化设计。

在实验部分,本文使用了三个公开的医学图像数据集,包括DSB18、ISIC 2018和Kvasir-SEG,以验证LVMC-UNet的分割性能。DSB18数据集包含670张高分辨率的细胞核显微图像及其对应的分割标签,ISIC 2018数据集主要用于皮肤病变的分割任务,而Kvasir-SEG数据集则包含了肠道息肉的图像数据。通过在这些数据集上的实验,本文展示了LVMC-UNet在分割精度和计算效率方面的优势,尤其是在处理复杂结构和不同尺度的医学图像时,表现出更优越的性能。

实验结果表明,LVMC-UNet在保持较高分割精度的同时,显著降低了计算复杂度。与现有的轻量级分割方法相比,LVMC-UNet在多个指标上均取得了更好的表现,包括分割准确率、计算速度和内存占用。这些优势使得LVMC-UNet成为一种理想的轻量级医疗图像分割模型,适用于移动设备和资源受限的环境。此外,LVMC-UNet在处理不同尺度的医学图像时,能够有效融合多尺度特征,从而提高分割的准确性。

本文的主要贡献包括三个方面。首先,RVM模块的设计弥补了Vision Mamba在局部特征提取方面的不足,通过引入旋转位置编码,使得模型能够更准确地捕捉局部细节。其次,CSF模块的提出实现了多尺度特征的有效融合,结合注意力机制和蓝图分离卷积,提高了特征提取的效率和准确性。最后,LVMC-UNet的整体架构优化了传统UNet的设计,通过引入轻量级的CNN-Mamba结构,降低了模型的参数数量和计算复杂度,使其更加适用于移动医疗设备。

综上所述,LVMC-UNet作为一种轻量级的医疗图像分割模型,具有较高的分割精度和较低的计算成本,能够有效适应资源受限的医疗环境。其设计思路和模块结构为未来轻量级模型的发展提供了新的方向,同时也为移动医疗设备的应用提供了技术支持。随着医疗图像分割需求的不断增长,LVMC-UNet的提出具有重要的现实意义和应用价值。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号