大型语言模型在鼻咽癌TN分期与疗效评估中的应用:ChatGPT-4o-Latest与DeepSeek-V3-0324的对比性能分析

【字体: 时间:2025年10月05日 来源:JOURNAL OF MAGNETIC RESONANCE IMAGING 3.5

编辑推荐:

  本研究针对鼻咽癌(NPC)临床中肿瘤分期与疗效评估(TRE)依赖人工判读、效率低且一致性差的问题,由多中心研究人员开展基于大语言模型(LLMs)的自动化分期与评估研究。结果显示DeepSeek-V3-0324在多项任务中表现优异,尤其在TRE-1准确率达96.5%,显著优于GPT-4o(p<0.001),模型辅助显著提升诊断效率(p<0.001),为NPC临床决策智能化提供重要支持。

  
精准的肿瘤分期与治疗反应评估(Treatment Response Evaluation, TRE)对鼻咽癌(Nasopharyngeal Carcinoma, NPC)临床决策至关重要。传统方法依赖医师手动分析影像,不仅耗时费力,还存在观察者间差异与误判风险。
为此,研究人员开展了一项回顾性研究,评估两种大语言模型(Large Language Models, LLMs)——ChatGPT-4o-latest 和 DeepSeek-V3-0324——在NPC患者T/N分期与TRE任务中的自动化表现。研究纳入来自三个中心的307例NPC患者(平均年龄45.5±11.3岁;男性216例,女性91例),所有影像均通过3.0T或1.5T扫描仪获取,序列包括轴位T1加权快速自旋回波、T2加权快速自旋回波、T2加权压脂自旋回波及对比增强T1加权快速自旋回波。
两名放射科医师依据第9版AJCC/UICC指南与RECIST 1.1标准,确立了基线TN分期和两个时间点的TRE结果(诱导化疗后称TRE-1,同步放化疗后称TRE-2)作为金标准。LLMs通过少量样本思维链提示(few-shot chain-of-thought prompting)进行训练,并在277名患者的831份报告中进行了测试。此外,四位放射医师在有无LLM辅助的情况下分别独立评估了68个病例,以比较两种情境下的表现与效率。
统计分析采用McNemar–Bowker检验与Wilcoxon符号秩检验,以p<0.05为显著性水平。结果显示:DeepSeek-V3-0324在TRE-1分期中准确率显著高于GPT-4o-latest(96.5% vs. 82.9%,p<0.001);在T分期(95.3% vs. 93.5%,p=0.24)、N分期(93.8% vs. 89.6%,p=0.265)和TRE-2(94.9% vs. 93.2%,p=0.556)方面两者无显著差异。DeepSeek-V3-0324与专家标注的一致性也更强(κ=0.85–0.90),优于ChatGPT-4o-latest(κ=0.49–0.86)。所有放射医师在LLM辅助下均显著提升时间效率(p<0.001)。
研究表明,LLMs(尤其是DeepSeek-V3-0324)能够以高准确性实现NPC的TN分期与TRE自动化,显著提升临床效率,有望改善诊断一致性,对基层与年轻医师具有较高应用价值。本研究证据等级为3级,技术效能阶段为4。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号