大型语言模型在复杂麻醉决策中的表现：对四种大型语言模型在高风险患者中的比较研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Journal of Medical Systems》：Performance of Large Language Models in Complex Anesthesia Decision-Making: A Comparative Study of Four LLMs in High-Risk Patients

【字体：大中小】 时间：2025年10月02日 来源：Journal of Medical Systems 5.7

编辑推荐：

　　麻醉决策中大型语言模型性能比较及可靠性分析。研究采用标准化案例评估，对比ChatGPT-4o、Claude 3.5 Sonnet、DeepSeek-R1和Grok 3在30例危重产科（10例）和老年（20例）手术病例中的麻醉决策表现，覆盖8个外科专科。基于12维评估框架，5位麻醉学家从患者评估等6个维度进行评分（总分60）。结果显示DeepSeek总分51.43分显著优于其他模型（P<0.001），在决策逻辑（8.80±0.40）和应急计划（8.27±0.45）得分最高，且各专科表现一致。研究证实LLMs具备麻醉决策潜力，但需注意专科差异及样本量限制。

摘要

本研究旨在评估和比较四种大型语言模型（LLMs）在危重产科和老年患者麻醉决策中的表现，并分析它们在不同外科专业领域的决策可靠性。采用标准化病例评估方法进行了前瞻性比较分析，涉及的LLMs包括ChatGPT-4o、Claude 3.5 Sonnet、DeepSeek-R1和Grok 3。共分析了30例复杂外科病例（10例产科病例，20例老年病例，涵盖8个外科专业）。通过一个12维的评估框架，使用统一的提示和决策点对这四种模型进行了测试。五名受过培训的麻醉医师从六个维度（患者评估、麻醉计划、风险管理、个性化处理、应急计划、决策逻辑；评分范围1-10分，总分为6-60分）对模型进行了独立评价。总体而言，DeepSeek的表现最佳（得分51.43±2.74分），显著优于其他模型（P<0.001）。在产科病例中，各模型的平均得分分别为：DeepSeek（52.00±1.83分）、Grok（49.40±3.06分）、ChatGPT（47.60±2.88分）和Claude（46.60±2.17分）；在老年病例中，各模型的平均得分分别为：DeepSeek（51.15±3.10分）、Grok（48.60±2.33分）、ChatGPT（47.35±2.50分）和Claude（45.75±2.05分）。在所有外科专业中，DeepSeek在肝胆外科、烧伤外科和胸外科的表现最为突出。DeepSeek在所有维度上都表现出稳定的性能，在决策逻辑（8.80±0.40分）和应急计划（8.27±0.45分）方面具有显著优势。所有LLMs均展现了较强的麻醉决策能力，其中DeepSeek的整体表现最为优异。尽管样本量较小，探索性分析仍发现各模型在不同专业领域的表现存在差异。临床应用时应考虑专业特性和决策过程的特点。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号