ScaleFusionNet:基于Transformer引导的多尺度特征融合在皮肤病变分割中的创新应用
《Scientific Reports》:ScaleFusionNet: transformer-guided multi-scale feature fusion for skin lesion segmentation
【字体:
大
中
小
】
时间:2025年10月03日
来源:Scientific Reports 3.9
编辑推荐:
本研究针对皮肤病变边界模糊、颜色渐变和形状不规则等分割难题,提出了一种融合交叉注意力Transformer模块(CATM)和自适应融合块(AFB)的混合模型ScaleFusionNet。该模型通过Swin Transformer块和可变形卷积实现了局部与全局特征的协同提取,在ISIC-2016、ISIC-2018和HAM10000数据集上分别达到92.94%、91.80%和95.37%的Dice分数,显著提升了皮肤癌诊断的精准度和效率。
黑色素瘤作为一种恶性皮肤肿瘤,其发病率近年来因环境污染和紫外线辐射加剧而显著上升。早期准确诊断对提高患者生存率至关重要,但传统诊断方法如临床观察和组织活检存在主观性强、有创等局限。医学图像分割技术虽能提供非侵入性的高精度解决方案,但由于皮肤病变边界模糊、颜色渐变和形状不规则等特性,准确分割仍面临巨大挑战。现有基于卷积神经网络(CNN)的模型如U-Net在捕获全局上下文信息方面存在局限,而纯Transformer模型又难以有效整合多尺度信息,导致病灶区域关注不足和特征细节解码不完整。
为突破这些技术瓶颈,发表在《Scientific Reports》的这项研究提出了ScaleFusionNet模型,该模型通过创新性地集成交叉注意力Transformer模块(Cross-Attention Transformer Module, CATM)和自适应融合块(Adaptive Fusion Block, AFB),实现了局部与全局特征的高效融合。研究团队在ISIC-2016、ISIC-2018和HAM10000等公开数据集上进行了系统验证,结果表明该模型在分割精度和边界保持方面均优于现有先进方法。
关键技术方法包括:1)采用分层Swin Transformer编码器提取多尺度特征;2)设计CATM模块通过交叉注意力机制缩小编码器-解码器语义差距;3)构建AFB模块整合可变形卷积与Transformer注意力实现自适应特征融合;4)使用PH2数据集进行外部验证。实验配置采用PyTorch框架,AdamW优化器,结合BCE和IOU损失函数,输入图像统一调整为256×256像素。
ScaleFusionNet采用U-Net式设计,包含三个核心组件:混合编码器、CATM和AFB。编码器结合卷积层和Swin Transformer块,在四个分辨率级别(64×64×96, 32×32×192, 16×16×384, 8×8×768)提取特征。CATM位于跳跃连接处,通过交叉注意力融合(CAF)和共享空间注意力(SharedSA)机制动态对齐编码器-解码器特征。AFB则通过并行处理路径集成Swin Transformer特征、可变形卷积特征和恒等映射,实现多尺度特征的精炼融合。
CATM的创新之处在于将解码器的高层语义特征作为查询(Query),引导对编码器低层特征的注意力权重分配。具体流程包括:通过Swin Transformer块从解码器特征生成Q/K/V表示,利用交叉注意力计算权重,最后通过SharedSA实现跨层级的统一特征增强。这种设计有效解决了传统跳跃连接中的语义不匹配问题,使模型在保持细节的同时增强上下文感知能力。
AFB采用分辨率自适应策略,针对不同解码层级调整特征提取方式。在高层级(64×64)仅使用前两个Swin Transformer阶段保留细节,中层级(32×32)使用前三阶段平衡计算成本,深层(16×16)减少嵌入维度避免内存瓶颈,最低层级(8×8)则完全采用卷积操作。可变形卷积分支通过偏移量预测实现空间自适应采样,结合恒等分支保持原始信息,最终通过1×1卷积实现三路特征融合。
在ISIC-2016数据集上,ScaleFusionNet的DSC达到92.94%,较Swin-UNet提升2.82%,参数量(62.91M)和计算量(15.45G FLOPs)均优于参数量达101.64M的D-LKA模型。可视化对比显示,该模型的预测结果(黄色区域)与真实标注重叠度最高,误诊(绿色)和漏诊(红色)区域显著减少。
ISIC-2018数据集测试中,模型在DSC(91.80%)、IOU(85.57%)等指标上全面领先,灵敏度(90.88%)和特异性(97.67%)指标均衡。Hausdorff距离(8.1783)和平均对称表面距离(0.1093)进一步证实了边界分割的精确性。
大规模数据集HAM10000的测试中,模型以95.37%的DSC分数刷新性能纪录,特别是在包含7种色素性皮肤病变的复杂场景下仍保持稳定表现。外部验证使用PH2数据集时,基于ISIC-2018预训练权重的模型DSC达92.37%,显示出强泛化能力。
通过逐步添加核心组件的消融实验证实:仅使用混合架构时DSC为91.76%,加入AFB后提升至92.01%,引入CATM后达到92.24%,完整模型最终实现92.94%的最佳性能。特征可视化显示,经过CATM处理后特征图对目标区域的关注度显著增强,AFB输出的多尺度特征呈现出优异的边界拟合能力。
ScaleFusionNet通过交叉注意力机制和自适应多尺度融合策略,有效解决了皮肤病变分割中的语义鸿沟和细节丢失问题。其在多个公开数据集上的卓越表现,证明了混合架构在医学图像分割领域的应用潜力。未来研究方向包括优化计算效率、引入不确定性量化指标,以及探索在三维医学图像分割中的扩展应用。该技术为皮肤癌的早期诊断和治疗规划提供了可靠的工具,具有重要的临床转化价值。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号