
-
生物通官微
陪你抓住生命科技
跳动的脉搏
隐私保护型开放权重大语言模型实现胰腺癌CT报告可切除性自动分类的多中心研究
【字体: 大 中 小 】 时间:2025年09月25日 来源:Journal of Medical Systems 5.7
编辑推荐:
本研究由来自多中心的研究团队开展,针对胰腺导管腺癌(PDAC)CT报告中关键影像学特征提取与NCCN可切除性判读的自动化需求,开发基于开放权重大语言模型(LLMs)的智能分析流程。结果表明,Gemma-2-27b-it与Llama-3-70b-instruct模型在内部验证中提取准确率达97-98%,可切除性判断准确率达91-93%,外部验证显示模型泛化性存在差异。该研究为医疗AI模型在保护数据隐私前提下的临床落地提供了重要实践依据。
研究旨在评估开放权重大语言模型(Open-weight Large Language Models, LLMs)从自由文本影像报告中提取关键影像学特征并判断胰腺导管腺癌(Pancreatic Ductal Adenocarcinoma, PDAC)基于美国国家综合癌症网络(National Comprehensive Cancer Network, NCCN)指南的可切除性状态的效能。研究方法采用30份虚构报告构建提示词模板,使用100份额外虚构报告进行内部验证,并最终通过两家医疗机构2022年1月至2023年12月期间的200份真实报告进行测试。由两位放射科医生共同确定18项关键特征及可切除性状态的金标准。对Gemma-2-27b-it和Llama-3-70b-instruct模型的表现采用召回率(recall)、精确度(precision)、F1-分数(F1-score)、特征提取准确度(extraction accuracy)和整体可切除性判断准确度(overall resectability accuracy)进行量化评估,统计方法包括McNemar检验和混合效应逻辑回归。
内部验证结果显示,Llama模型召回率显著高于Gemma(99% vs. 95%,p?0.01),提取准确度略优(98% vs. 97%),整体可切除性判断准确度也更高(93% vs. 91%)。在内部测试集上,两模型均达到96%的召回率与96%的提取准确度,Llama的可切除性判断准确度为95%,Gemma为93%。在外部测试集中,两模型召回率均为93%,Llama提取准确度为93%、Gemma为95%;Gemma的整体可切除性判断准确度高于Llama(89% vs. 83%),但差异无统计学意义(p?>?0.05)。
结论表明,开放权重模型能够准确从自由文本PDAC报告中提取关键影像学特征并判断NCCN可切除性状态。尽管在内部数据中表现稳健,模型在外部数据上的性能有所下降,凸显了针对不同医疗机构进行特定优化的必要性。
生物通微信公众号
知名企业招聘