综述:生成式AI与基础模型在医学影像中的应用

【字体: 时间:2025年10月07日 来源:Radiological Physics and Technology 1.5

编辑推荐:

  这篇综述深入探讨了生成式AI(如扩散模型和LLM)及基础模型在医学影像处理中的革命性应用,涵盖图像生成、分割及多模态融合等关键技术,为开发高性能医疗AI系统提供了基于国家数据与算力资源的新范式。

  

2 判别式AI与生成式AI

2012年AlexNet的提出标志着深度学习在图像处理中的研究开端。当时多数模型属于“判别式AI”,执行图像分类、目标检测和分割等任务,其输出信息量通常少于输入。常用架构包括卷积神经网络(CNN)和全卷积网络(FCN)。
生成式AI则从文本等低信息输入生成高信息量的输出(如图像或长文本)。其代表架构为扩散模型或大规模Transformer,交互方式常通过“提示”(prompt)实现,反映了AI从单纯执行指令向智能推理实体的转变。

3 图像生成AI

3.1 概述

早期图像生成依赖变分自编码器(VAE)和生成对抗网络(GAN),但VAE表达力有限,GAN训练不稳定。如今DALL·E 3、Stable Diffusion等服务基于扩散模型,生成质量显著提升。

3.2 扩散模型

扩散模型受热力学启发,通过前向扩散(添加噪声)和反向扩散(去噪重建)过程生成图像。去噪扩散概率模型(DDPM)是其常见实现,使用U-Net等架构逐步去噪,结合文本或图像嵌入作为生成条件。

3.3 医学图像生成的扩散模型应用

扩散模型已用于生成2D/3D脑MR图像、4D心脏MR图像和腹腔镜手术图像,生成图像能通过文本或标签精确控制解剖结构和病变特征。这些生成图像虽不能直接用于诊断,但可作为高级数据增强技术,提升诊断支持模型的性能。例如,使用Stable Diffusion生成带肿瘤的乳腺X线图像,训练后模型性能显著优于仅使用真实图像的方法。

3.4 医学图像分割的扩散模型应用

扩散模型在分割任务中表现突出。MedSegDiff通过反向扩散过程生成分割结果图像,其准确性超越FCN和ViT-based方法。改进方法如MT U-Net通过交叉注意力和多尺度Transformer提升特征提取效果;Bernoulli噪声替代高斯噪声的方法在二值分割中更有效;TextDiff融合临床文本(Clinical BioBERT)与图像信息,实现小数据高效训练;Diff-VPS结合多任务学习和时序信息,优化结肠镜视频中的息肉分割。

4 文本生成AI

4.1 概述

ChatGPT和Gemini等服务基于大语言模型(LLM),生成自然文本,推动自然语言处理(NLP)变革。

4.2 NLP进展与LLM兴起

Transformer架构取代RNN/LSTM成为NLP核心,其缩放定律表明性能随数据、参数和算力增加而提升。GPT系列从GPT-1(1.17亿参数)扩展到GPT-3.5(3550亿参数),采用自监督学习(如掩码语言建模)预训练,再经微调优化任务性能。

4.3 医疗与日语LLM

医疗专用LLM(如BioBERT、GatorTronGPT)和日语LLM(如ELYZA-japanese-Llama-2-7b、LLM-jp-3172B)应运而生,支持专业领域应用。

4.4 LLM在医疗支持中的应用

商用服务(如MammoScreen的报告生成)和研究应用(如ChatCAD的图像描述生成、TextDiff的多模态分割)快速发展,助力放射报告自动生成、结构化和匿名化。

5 基础模型

5.1 大规模模型的泛化性能

缩放定律同样适用于视觉模型。Segment Anything Model(SAM)基于11亿标注和6亿参数,展现零样本泛化能力,包括医疗图像分割(如病理、心脏超声)。其升级版SAM 2支持视频处理和更高精度。

5.2 基础模型与AI开发范式变革

基础模型通过大规模跨任务数据训练,获得通用能力,减少下游任务开发成本。零样本/少样本学习、参数高效学习等方法实现高效迁移。
医疗基础模型(如Shuo Li提出的分层结构)可按器官和疾病组织下游任务,提升开发效率。

5.3 视觉基础模型开发方法

自监督学习(SSL)是预训练核心,对比学习(CL)(如SimCLR、MoCo)和掩码图像建模(MIM)(如掩码自编码器)是主流技术,组合方法(如CMAE)进一步强化性能。

5.4 医疗图像处理的基础模型

领域专用基础模型缩小域间差距:MedSAM基于157万医疗图像训练,以边界框为提示,优于SAM;MedSAM-2扩展至3D分割;BiomedCLIP融合PubMedBERT文本编码器,处理图像分类和视觉问答;BioViL-T结合X射线和放射报告;PathAsst和Prov-GigaPath针对病理图像;RETFound专注于眼底和OCT图像。

6 医学影像处理的未来方向

6.1 概述

医疗领域需开发适应国家人口数据偏好的基础模型,依赖大规模数据、参数和算力,通过学术合作实现。

6.2 构建大规模医疗图像数据集

日本国立情报学研究所(NII)的“医疗图像大数据云平台”收集超4亿图像。高效标注(如人机回圈系统在3周内完成8448例CT标注)和合成数据(如4D XCAT Phantom模拟、血管发育模拟生成OCT血管图像)降低成本提升数据多样性。

6.3 利用大规模计算资源

超级计算机GPU集群支持分布式训练,结合费用支持计划,使大规模模型开发可行。

7 结论

生成式AI和基础模型正重塑医疗影像处理范式。利用国家数据和算力开发国产基础模型,将为医疗支持技术发展注入新动力,推动学术界持续贡献。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号