
-
生物通官微
陪你抓住生命科技
跳动的脉搏
大型语言模型在软组织肉瘤多学科诊疗中的决策能力评估:与21家肉瘤中心专家共识的对比研究
【字体: 大 中 小 】 时间:2025年09月16日 来源:Journal of Cancer Research and Clinical Oncology 2.8
编辑推荐:
本研究针对软组织肉瘤(STS)诊疗决策的高度异质性,首次对比了Llama 3.2-vision:90b、Claude 3.5 Sonnet等4种大型语言模型(LLMs)与21家德语国家肉瘤中心多学科团队(MTB)的诊疗建议。研究发现LLMs与人类专家共识的匹配率仅20-60%,且存在潜在有害建议,凸显AI在复杂肉瘤诊疗中的局限性,强调高流量肉瘤中心转诊的必要性。论文发表于《Journal of Cancer Research and Clinical Oncology》。
软组织肉瘤(STS)作为仅占成人恶性肿瘤1%的罕见肿瘤,其诊疗复杂性长期困扰临床实践。尽管指南推荐患者应在专业肉瘤中心接受多学科肿瘤委员会(MTB)诊疗,但近期"肉瘤环形试验"揭示:21家德语国家中心对5例标准化STS病例的决策共识率低至33.3%,暴露出现实诊疗中的巨大差异。这种决策异质性促使研究者思考:快速发展的生成式人工智能(AI),特别是大型语言模型(LLMs),能否为STS-MTB提供可靠决策支持?
为回答这个问题,Cheng-Peng Li等研究者设计了一项开创性研究,选取4种主流LLMs(包括开源的Llama 3.2-vision:90b和商业化的Claude 3.5 Sonnet),通过模拟MTB讨论场景,将其决策与21家实际肉瘤中心的专家建议进行系统对比。研究采用标准化提示词,要求LLMs扮演德国肉瘤专家小组(含外科、放疗等5个专业角色),对5例匿名STS病例(2例腹膜后、2例肢体、1例躯干)各进行21轮独立查询,总计产生420次响应。关键评估指标包括:模型内一致性、与人类MTB建议的匹配度、替代方案合理性,以及建议依据的指南溯源情况。
关键技术方法包括:1) 使用肉瘤环形试验的5例标准化病例数据(含临床资料、病理报告及CT/MRI图像);2) 通过API或网页接口访问4种LLMs,温度参数设为0以确保结果可重复性;3) 采用GraphPad Prism分析模型内一致性和建议分布;4) 将LLMs输出与21家中心的实际MTB记录进行逐项比对;5) 按德国S3指南等标准对建议依据进行溯源分类。
研究结果部分:
模型内一致性:Claude 3.5 Sonnet表现最优,5个病例均实现100%内部一致;Llama 3.2-vision:90b在4/5病例中完全一致;而OpenAI-o1和DeepSeek-R1的中位一致性仅47.6%。
案例特异性分析:
病例1(右腹股沟去分化脂肪肉瘤):人类MTB最常推荐"区域热疗联合化疗→手术→术后放疗"(14.3%),但该方案未被任何LLM提及。相反,Llama 3.2-vision:90b坚持的"新辅助化疗→手术→放疗"仅获1家中心(4.8%)支持。

病例4(腹膜后高分化脂肪肉瘤):所有LLMs均100%推荐单纯手术,与52.4%人类中心共识高度吻合,展现对简单病例的良好把握能力。
总体匹配度:表现最佳的Claude 3.5 Sonnet仅在60%病例(3/5)中与主流MTB建议一致。在病例5(腘窝多形性横纹肌肉瘤)中,所有LLMs的主流建议仅获4.8%中心支持,凸显复杂病例中的决策偏差。
建议依据分析:仅24.8-55.2%的LLMs建议明确引用德国S3指南,其中Llama 3.2-vision:90b的55.2%最高,但43.8%建议未注明任何依据。DeepSeek-R1最常引用非S3指南(39%),而OpenAI-o1高达62.9%建议缺乏文献支持。
替代方案风险:LLMs提出若干危险建议,如DeepSeek-R1在病例5中85.7%推荐截肢,违反肢体保留原则;对病例4(已有消化道症状)多数模型建议观察随访,明显不当。
研究结论强调:尽管LLMs展现作为MDT讨论准备工具的潜力,但其与人类专家共识的显著差异(尤其复杂病例)、潜在有害建议及指南引用不足等问题,证实当前AI尚无法替代高流量肉瘤中心的专业MTB。该研究为AI在罕见肿瘤诊疗中的应用划定了现实边界,提示未来需通过检索增强生成(RAG)等技术整合区域化指南,并加强医学专业训练以提升LLMs的临床可靠性。
生物通微信公众号
知名企业招聘