在当今医疗领域,人工智能(AI)的飞速发展为医学影像分析带来了全新的变革。借助 AI 技术,医学影像分析变得更加高效、精准,能帮助医生更快、更准确地做出诊断,制定更有效的治疗方案。然而,这一过程并非一帆风顺。当 AI 模型应用于不同种族、不同地区的人群时,问题出现了。由于患者的人口统计学特征、成像协议、设备以及环境因素等存在差异,导致模型在不同人群中的表现参差不齐,这种现象被称为 “域转移(Domain Shift)” 。
简单来说,域转移就是数据分布在不同群体间的变化。这一问题在医学影像分析中尤为突出,因为它会严重影响 AI 模型的性能,使得模型在一个群体上训练得再好,应用到另一个群体时,准确性可能会大打折扣。例如,一些在特定地区人群数据上训练的模型,在其他地区人群中使用时,诊断错误率明显上升。这不仅影响了医疗诊断的准确性,还可能导致患者得不到及时、正确的治疗,对全球健康公平构成了严重挑战。
为了解决这一棘手的问题,来自非洲科技大学(African University of Science and Technology)、印度阿贾伊?库马尔?加格工程学院(Ajay Kumar Garg Engineering College)、西班牙萨拉戈萨大学(University of Zaragoza)等机构的研究人员展开了深入研究。他们将目光聚焦在胸部 X 光分类这一关键领域,致力于探索如何克服跨人群域转移带来的负面影响。
这项研究成果发表在《Scientific Reports》上,具有重要的意义。它为解决 AI 模型在医疗影像分析中的域转移问题提供了新的思路和方法,有望推动 AI 驱动的医疗保健领域朝着更加公平、可靠的方向发展,最终让全球患者受益。
研究人员在这项研究中运用了多种关键技术方法。首先,他们收集了不同地区的胸部 X 光数据集,包括尼日利亚(作为目标数据集)、中国广州、越南河内以及卡塔尔多哈的数据集。这些数据集涵盖了不同种族、地域人群的胸部 X 光影像,具有丰富的多样性。然后,采用预训练的 DenseNet201 CNN 模型作为基础模型,并通过调整模型的训练策略,如冻结初始层、调整损失函数和优化器等,来适应不同数据集的特点。此外,研究人员提出了监督对抗域适应(ADA)技术,这是整个研究的核心技术,通过对抗训练来对齐源域和目标域的特征分布,以减少域转移的影响。
数据集与模型训练:研究人员精心选取了尼日利亚胸部 X 光数据集作为目标域,该数据集包含 6345 张 X 光图像,由三位医生标注为肺炎、肺结核和正常三类。同时,选择了来自中国、越南和卡塔尔的三个胸部 X 光数据集作为源数据集。利用预训练的 DenseNet201 模型,在各个源数据集上进行训练,并使用标准指标(准确率、AUC 和精度)评估模型性能。结果发现,当在源数据集上训练的模型应用到尼日利亚目标数据集时,性能出现了显著下降,这充分证明了跨人群域转移的存在。
提出的 ADA 技术:为了应对域转移问题,研究人员提出了 ADA 技术。该技术分为两个阶段,第一阶段使用交叉熵损失函数在源数据集上训练特征提取器,并利用 20% 的目标数据集对齐特征分布;第二阶段冻结特征提取器,引入对抗域判别器区分源域和目标域,同时结合标记的目标数据进行监督适应。通过这种方式,使模型能够学习到域不变特征,从而提高在目标域上的泛化能力。
实验结果评估:将 ADA 模型在尼日利亚数据集上进行评估,并与其他先进方法进行比较。结果显示,ADA 模型在尼日利亚测试集上的准确率达到了 90.08%,AUC 得分为 0.96,显著优于多任务学习(MTL)和持续学习(CL)等现有方法。与其他竞争方法如 Task-oriented UNsupervised Adversarial Network(TUNA-NET)、Wasserstein Distance and Discrepancy Metric(WDDM)、Unsupervised Domain Adaptation(UDA)和 Adversarial Discriminative Domain Adaptation(ADDA)相比,ADA 在特异性和 AUC 方面表现出色,表明其具有更好的跨域泛化能力和准确分类胸部 X 光图像的能力。
研究结论和讨论部分指出,该研究成功揭示了深度学习模型在胸部 X 光分类中面临的跨人群域转移问题,并通过实验量化了域转移对模型性能的影响。提出的 ADA 技术有效缓解了域转移的负面影响,显著提高了模型在不同人群中的分类性能。这一成果不仅有助于推动 AI 在医疗影像分析领域的发展,增强模型的泛化能力,还为实现全球健康公平提供了有力支持。同时,研究人员也指出,未来的研究可以进一步扩展 ADA 技术的应用范围,如在更多不同地区的数据集上进行测试,探索其在不同成像模态和疾病分布情况下的适应性,以及结合其他技术如渐进式域适应和自监督学习,进一步提升 ADA 技术的性能和适应性,为 AI 驱动的医疗保健领域带来更多突破。