《npj Digital Medicine》:Large language models driven neural architecture search for universal and lightweight disease diagnosis on histopathology slide images
编辑推荐:
为破解“一病一模”式病理AI模型落地难、通用大模型定制贵的瓶颈,作者提出Pathology-NAS,把GPT-4引入超网神经架构搜索,10次迭代即得乳腺癌/糖尿病视网膜病变99.98%分类准确率,FLOPs降45%,为资源受限场景提供即用型AI病理助手。
病理科医生每天要在显微镜下浏览数百张组织切片,寻找毫米级甚至微米级的癌变区域,费时费力且极度依赖经验。传统AI虽能辅助,却陷入“一病一模”的怪圈:每换一种癌症、每换一台扫描仪,就要重新设计并训练专属模型,数据标注、算力消耗和调试周期让基层医院望而却步。另一方面,近来大火的通用视觉基础模型虽“什么都会”,却因参数量巨大、需海量病理切片微调,临床部署依旧“高不可攀”。能否让AI像资深病理专家一样“一学多能”,又能在普通GPU工作站上飞速运行?Xiu Su、Qinghua Mao等联合团队给出的答案是——把大语言模型(LLM)“请进”神经架构搜索(NAS)的指挥室,让AI自己写AI,十轮对话之内交出轻量级、高精度的病理诊断网络。相关成果2025年发表于《npj Digital Medicine》。
研究背景直指三大痛点:
任务特异性模型缺乏跨病种泛化力;
通用大模型“大而无当”,复杂案例定制成本居高不下;
传统NAS需在4量级架构空间中暴力搜索,算力门槛让医院信息中心“望而生畏”。作者假设,GPT-4蕴含的丰富医学与视觉先验可显著压缩搜索空间,于是提出Pathology-NAS——一个“LLM驱动、超网预训练、一次采样”的通用病理图像分析框架。
为验证假设,团队首先构建覆盖ShuffleNet v2、U-Net、Vision Transformer(ViT)三大超网,在ImageNet-1K及130万张公开病理切片上预训练,确保每条子路径权重充分更新;随后用GPT-4充当“黑盒优化器”,以自然语言交互方式迭代推荐网络配置。每轮只微调20 epoch即把精度与FLOPs反馈给LLM,10轮后锁定最优子网络。整个过程无需人工调参,也不依赖强化学习或进化算法。
关键技术方法
单路径超网预训练:单分支独立权重,避免多路径权重耦合;
GPT-4引导的迭代式NAS:自然语言提示+JSON配置输出,零人工干预;
20 epoch早停微调:快速评估架构潜力,显著压缩搜索时间;
多任务验证:分类(BreakHis、糖尿病视网膜病变、胃癌)与分割(BCSS、PanNuke、Zenodo肺癌、CoNSeP)同步测试;
域外泛化评估:源域训练的模型直接迁移至皮肤肿瘤、息肉等外部切片,不重新训练。
研究结果
Pathology-NAS在乳腺癌二分类任务中,ShuffleNet子网以213.30M FLOPs、1.80M参数取得99.98% Top-1准确率,比EfficientNet高11.35个百分点,FLOPs降45%;ViT子网在糖尿病视网膜病变五分类中达70.38% Top-1,优于Swin-Transformer。分割任务上,U-Net子网在BCSS取得74.33% Dice、59.68% IoU,FLOPs仅10.58G,分别比U-Net基线提升2.77 Dice、3.35 IoU,计算量却减少28%。在由16种组织构成的PanNuke数据集上,Pathology-NAS平均Dice 89.31%,显著缓解U-Net与FPN在胆管、甲状腺等区域常见的过分割与粘连错误。
更关键的是域外泛化:BreakHis上搜得的ShuffleNet直接用于皮肤肿瘤分类,Top-1准确率74.50%,比随机搜索架构提高35.29%;PanNuke上搜得的U-Net在息肉分割Dice达62.07%,提升22.89%,证明LLM先验赋予模型跨器官、跨染色风格的稳健特征。
成本方面,GPT-4仅在前10轮搜索阶段被调用,API费用约0.13–0.18美元;搜索GPU时间7.42小时,比随机搜索、AutoFormer、Cream等方法缩短3–9倍,总耗时与推理阶段无关,临床部署无额外开销。
结论与讨论
Pathology-NAS首次把大语言模型的“知识蒸馏”用于病理NAS,突破传统方法需暴力遍历的瓶颈,实现“十轮对话、即插即用”的轻量级诊断模型。其意义在于:
为资源受限地区提供可负担的AI病理方案;
打通“通用-专用”鸿沟,同一框架覆盖分类、分割及多器官任务;
验证LLM在医学视觉架构设计的可行性,为后续多模态基础模型提供新范式。作者也指出,超网单路径训练仍可能欠优化,未来可扩大搜索空间至视觉-语言协同架构,并引入联邦学习保护数据隐私。总的来看,Pathology-NAS让“AI写AI”的设想在病理科率先落地,为精准、普惠、绿色的智能病理诊断按下加速键。