mSTAR:一种多模态知识增强的全切片病理基础模型

《Nature Communications》:A multimodal knowledge-enhanced whole-slide pathology foundation model

【字体: 时间:2025年12月13日 来源:Nature Communications 15.7

编辑推荐:

  本文推荐一项名为mSTAR的多模态知识增强全切片病理基础模型研究。针对现有病理基础模型多模态整合不足、缺乏全切片上下文感知的挑战,研究团队创新性地整合病理切片、病理报告和基因表达数据三种模态,构建包含26,169个切片级模态对的预训练数据集。通过两阶段预训练范式,成功将多模态全切片上下文知识注入模型,在97项肿瘤学任务评估中表现卓越,特别是在分子预测和多模态任务上显著优于现有最优模型,为计算病理学提供了更全面的多模态理解能力。

  
在当今精准医疗时代,计算病理学作为人工智能与医学的交叉前沿领域,正以前所未有的速度改变着传统病理诊断模式。然而,尽管基础模型在自然语言处理和计算机视觉领域取得突破性进展,病理学领域仍面临两大核心挑战:一方面,临床实践中产生的多模态数据未能得到充分利用,包括蕴含丰富诊断信息的病理报告和反映分子特征的基因表达数据;另一方面,现有模型多局限于局部图像分析,难以捕捉全切片水平的整体病理模式。这种局限性严重制约了模型在真实临床场景中的应用价值。
针对这一现状,来自香港科技大学、南方医科大学等多家机构的研究团队在《Nature Communications》上发表了创新性研究成果。研究团队指出,理想的计算病理学模型应当具备多模态理解能力和全切片上下文感知能力,从而更好地辅助临床决策。然而,现有方法通常仅使用视觉数据或简单的图像-文本对,忽略了不同模态数据提供的独特视角。更重要的是,大多数模型仍停留在局部图像块分析层面,无法从整体上把握病理切片的关键信息。
为突破这些限制,研究团队开发了名为mSTAR(多模态自教导预训练)的新型病理基础模型。该模型的创新之处在于首次将三种关键模态——病理切片、专家撰写的病理报告和基因表达数据——整合到统一框架中。研究收集了涵盖32种癌症类型的26,169个切片级模态对,包含超过1.16亿个图像块,构建了迄今为止最全面的多模态病理数据集。
mSTAR采用独特的两阶段预训练范式。第一阶段通过切片级对比学习,将多模态知识注入切片聚合器中;第二阶段创新性地采用"自教导"训练方式,将已获得多模态知识的聚合器作为"教师"模型,指导图像块特征提取器的训练,从而将全切片上下文信息无缝传播到基础特征提取器中。这种方法实现了从单模态到多模态、从局部到整体分析的模式转变。
研究团队设计了迄今为止最全面的评估体系,涵盖97项临床任务,包括病理诊断、分子预测、生存分析、报告生成等7个类别。结果表明,mSTAR在多项任务中均显著优于现有最优模型。特别是在分子预测方面,mSTAR在基因突变预测、免疫组化生物标志物预测和分子分型等任务中表现出色,例如在子宫内膜癌中ARID1A突变预测的AUC提升达5.23%,在肺腺癌中KRAS突变预测提升5.14%。这些改善对于癌症的靶向治疗选择具有重要意义。
在零样本学习能力方面,mSTAR同样展现卓越性能。在切片分类任务中,相比次优模型平均提升3.9%;在切片检索任务中,即使在外部验证集上也保持显著优势。更令人印象深刻的是,mSTAR在病理报告生成任务中能够产生更准确、更全面的描述,减少了幻觉现象,显示出良好的泛化能力而非简单地记忆模板。
多模态融合实验进一步验证了mSTAR的实用价值。当与四种主流多模态融合模型(MCAT、Porpoise、MOTCat和CMTA)结合时,mSTAR在9个癌症生存预测任务中均取得最佳表现,平均排名达1.47,显著优于其他方法。这表明通过多模态预训练获得的良好特征对齐,能够有效缓解不同模态间的异质性问题。
技术方法方面,研究主要采用以下关键技术:首先从TCGA(The Cancer Genome Atlas)数据库获取多模态数据,包括H&E染色的全切片图像、病理报告和RNA-Seq(RNA测序)数据;其次采用两阶段预训练策略,第一阶段通过切片级对比学习训练TransMIL(基于Transformer的多实例学习)聚合器,第二阶段通过自教导训练优化视觉Transformer(ViT)特征提取器;最后使用注意力机制的多实例学习(ABMIL)进行下游任务评估。外部验证数据来自多个医疗中心的真实临床队列。
病理诊断性能
在21个病理诊断数据集上的评估显示,mSTAR在18个任务中排名第一,宏观AUC(Area Under the Curve)平均提升1.37%。特别在外部验证集上,mSTAR表现出优异的泛化能力,相比次优模型提升2.14%。可视化分析表明,mSTAR关注的区域与病理学家标注的关键区域高度一致,证明其具备可靠的病理诊断智能。
分子预测能力
分子预测评估涵盖35个数据集,结果显示mSTAR在基因突变预测、免疫组化生物标志物预测和分子分型方面均显著优于基线模型。在18个基因突变预测任务中,mSTAR在14个任务中AUC超过0.6,其中TP53在乳腺癌中的预测AUC达0.8366,CIC在低级别胶质瘤中达0.9157。这些结果证实了模型在分子水平预测的可靠性,为替代部分昂贵分子检测提供了可能。
生存预测表现
在10个TCGA数据集和6个外部数据集上的生存分析表明,mSTAR具有稳定的预测性能和改进的泛化能力。在外部验证集上平均提升2%,其中乳腺癌总体生存预测提升达2.88%。Kaplan-Meier曲线分析显示,mSTAR能够在12/14个任务中显著区分高风险和低风险患者群体。
多模态融合优势
通过与四种多模态融合模型结合,mSTAR在9个癌症生存预测任务中均取得最佳表现。在不同融合架构下,mSTAR相比次优方法提升1%-2.4%,证明了其学到的特征表示能够更好地与其他模态数据对齐,为多模态整合提供了优质基础。
零样本与报告生成
在零样本学习任务中,mSTAR在切片分类和检索方面表现优异,特别是在CAMELYON数据集上相比次优模型提升10.4%。在病理报告生成方面,mSTAR生成的报告更加准确全面,在外部验证集上BLEU_1提升6.91%,显示出良好的临床实用性。
研究还通过消融实验验证了各组件贡献,发现多模态数据带来的性能提升远超单纯增加视觉数据规模。与需要150万切片训练的Virchow模型相比,mSTAR仅用2.2万额外切片就达到相当性能,数据效率提升53倍,为资源受限环境下的模型开发提供了可行路径。
研究结论与意义
mSTAR研究的核心贡献在于三个方面:首先,验证了多模态整合相比单模态数据扩展的显著优势,为病理基础模型的发展提供了新范式;其次,创新性地通过两阶段预训练弥合了切片级与图像块级建模的鸿沟;最后,建立了涵盖97项任务的全面评估基准,为领域发展提供重要参照。
该研究的实际意义深远:通过多模态知识融合,mSTAR能够更准确地预测分子特征,有望在资源有限地区替代部分昂贵检测;其强大的零样本学习和报告生成能力可以显著减轻病理医生工作负担;而优异的生存预测性能则为个体化治疗决策提供了可靠工具。
值得注意的是,研究也存在一定局限性。多模态数据配对的挑战限制了预训练数据规模,未来扩展更多模态(如免疫组化、特殊染色、空间转录组等)将进一步提升模型能力。此外,实现真正的端到端训练仍需克服计算资源限制,新型架构如Mamba、LongNet等可能提供解决方案。
总之,mSTAR通过创新性地整合多模态知识和全切片上下文,为计算病理学建立了新的技术标准。其展现出的强大泛化能力和多任务适应性,预示着多模态融合将成为病理人工智能发展的关键方向,为推进精准肿瘤诊断和治疗决策提供了有力工具。随着多模态数据的不断积累和算法架构的持续优化,这类模型有望在临床实践中发挥越来越重要的作用。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号