在标签损坏和数据稀缺的情况下学习鲁棒的大脑肿瘤分割方法
《Engineering Science and Technology, an International Journal》:Learning robust brain tumor segmentation under label corruption and data scarcity
【字体:
大
中
小
】
时间:2025年09月24日
来源:Engineering Science and Technology, an International Journal 5.1
编辑推荐:
医学图像分割中提出基于梯度相似性的元学习重加权方法MGR-DAS,通过计算训练样本与少量清洁样本的梯度余弦相似性动态调整损失权重,有效抑制标签噪声影响。实验表明该方法在BraTS成人、儿科及非洲数据集上DSC分别提升2.4%、28.7%和1.0%,优于传统微调、课程学习及现有元学习方法。
在医学图像分割领域,深度学习模型的应用正变得越来越广泛,尤其是在脑肿瘤分割任务中,其性能的提升为临床诊断和治疗提供了重要的支持。然而,尽管这些模型在大规模、高质量标注数据集上表现优异,但在实际应用中仍面临诸多挑战,尤其是在数据标注存在噪声或误差的情况下。标注噪声通常来源于手动标注过程中的主观性、标注人员的熟练程度不足,或是数据来源的不一致。这种噪声会干扰模型的训练过程,导致损失函数的计算出现偏差,从而影响模型的学习效率和最终性能。此外,由于某些特定肿瘤类型或患者群体的样本数量有限,训练数据的稀缺性也限制了模型的泛化能力。因此,如何在存在标注噪声和数据稀缺的情况下,提高模型的鲁棒性和泛化能力,成为当前研究的一个关键方向。
为了解决这些问题,研究者们提出了多种方法,包括使用其他大规模标注数据集进行迁移学习,或是在训练过程中引入噪声容忍机制。然而,这些方法在面对不同分布的数据集时,往往会产生不一致的结果,甚至在训练过程中引入错误的梯度信号,进一步影响模型的性能。例如,传统的迁移学习方法虽然可以利用外部数据增强模型的泛化能力,但当目标数据集与源数据集在分布上存在显著差异时,模型可能会出现过拟合或欠拟合的现象。同样,现有的课程学习(Curriculum Learning, CL)方法虽然试图通过逐步增加训练数据的难度来提升模型性能,但它们通常依赖于人为选择训练阶段,无法动态识别和处理噪声样本,导致在实际应用中效果有限。
为了克服这些限制,本文提出了一种新的基于元学习(meta-learning)的框架——MGR-DAS(Meta-Gradient Reweighting via Direction-Aware Similarity)。该方法的核心思想是利用一小部分高质量、无噪声的标注样本(称为“元案例”)来评估训练样本的可靠性,并通过计算噪声样本与元案例之间的梯度相似性来动态调整样本的权重。具体而言,MGR-DAS通过计算噪声样本在训练过程中产生的梯度与元案例梯度之间的余弦相似性,来衡量样本的可靠性。相似性较高的样本被认为更可能为干净样本,因此在训练过程中赋予更高的权重,从而减少噪声对模型训练的干扰,提高模型的鲁棒性。
在实验部分,本文对MGR-DAS方法进行了全面评估,使用了多个标准数据集,包括BraTS 2021、BraTS-PEDs 2023和BraTS-Africa 2023。这些数据集涵盖了不同年龄组和地理区域的脑肿瘤样本,具有较高的代表性和挑战性。通过使用三个常用指标——Dice Similarity Coefficient(DSC)、95th percentile Hausdorff Distance(HD95)和Intersection over Union(IoU)——对模型的性能进行了评估。实验结果表明,MGR-DAS方法在BraTS 2021数据集上实现了整体2.4%的DSC提升,而在仅使用10个干净标注样本的情况下,该方法甚至取得了28.7%的DSC提升。这说明MGR-DAS在数据稀缺的情况下依然能够有效识别噪声样本,并通过动态调整权重来提高模型的性能。
此外,在BraTS-PEDs和BraTS-Africa数据集上,MGR-DAS方法也表现出良好的泛化能力。在BraTS-PEDs数据集上,该方法使整体DSC提高了2.6%,而在BraTS-Africa数据集上,整体DSC提高了1.0%。这些结果表明,MGR-DAS不仅适用于成人脑肿瘤分割任务,还能够在处理儿科和非洲地区的脑肿瘤数据时保持较高的性能。这为在不同人群和地理区域中应用深度学习模型提供了新的可能性,尤其是在资源有限的医疗环境中。
MGR-DAS方法的优势在于其能够动态识别噪声样本,并通过梯度相似性评估来调整训练过程中的样本权重。相比于传统的课程学习方法,该方法不需要人工干预来选择训练阶段,而是通过计算样本之间的梯度相似性,自动判断哪些样本更值得信赖。这种自动化的处理方式不仅减少了人工标注的成本,还提高了模型在面对噪声数据时的适应能力。同时,MGR-DAS方法还能够在数据稀缺的情况下,通过有限的高质量样本来优化模型的训练过程,从而提高模型在实际应用中的泛化能力。
在方法的实现过程中,MGR-DAS框架首先需要从原始数据集中挑选出一小部分高质量、无噪声的样本作为元案例。这一过程可以通过手动筛选或自动化工具完成,但通常需要确保这些样本具有较高的准确性和一致性。一旦元案例被确定,模型在训练过程中会计算每个噪声样本的梯度与元案例梯度之间的余弦相似性。余弦相似性是一种衡量两个向量之间角度差异的指标,其值越接近1,表示两个向量越相似。因此,在MGR-DAS方法中,相似性越高的样本被认为越可能为干净样本,从而在训练过程中被赋予更高的权重。
这种基于梯度相似性的重加权策略能够有效减少噪声样本对模型训练的干扰,使模型更专注于学习来自干净样本的可靠特征。通过这种方式,MGR-DAS方法能够在训练过程中自动调整样本的重要性,从而提升模型的整体性能。此外,该方法还能够适应不同数据集的分布差异,使得模型在面对数据分布不一致的情况下仍能保持较高的泛化能力。
在实验中,MGR-DAS方法还进行了不同噪声水平下的消融研究,以评估其在不同噪声条件下的鲁棒性。结果表明,该方法在各种噪声条件下均能有效提升模型的性能,尤其是在噪声比例较高的情况下,其优势更为明显。这说明MGR-DAS方法不仅适用于特定的噪声类型,还能够应对多种噪声场景,具有较强的适应性和鲁棒性。
总的来说,MGR-DAS方法提供了一种新的思路,即通过梯度相似性评估来动态调整训练样本的权重,从而提高模型在存在标注噪声和数据稀缺情况下的性能。这一方法不仅能够减少对大规模标注数据集的依赖,还能在有限的高质量样本基础上,优化模型的训练过程。未来,随着医学图像数据的进一步增长和标注技术的不断进步,MGR-DAS方法有望在更多医学图像分割任务中得到应用,并为临床实践提供更可靠的解决方案。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号