大型语言模型在复杂麻醉决策中的表现:对四种大型语言模型在高风险患者中的比较研究

《Journal of Medical Systems》:Performance of Large Language Models in Complex Anesthesia Decision-Making: A Comparative Study of Four LLMs in High-Risk Patients

【字体: 时间:2025年10月02日 来源:Journal of Medical Systems 5.7

编辑推荐:

  麻醉决策中大型语言模型性能比较及可靠性分析。研究采用标准化案例评估,对比ChatGPT-4o、Claude 3.5 Sonnet、DeepSeek-R1和Grok 3在30例危重产科(10例)和老年(20例)手术病例中的麻醉决策表现,覆盖8个外科专科。基于12维评估框架,5位麻醉学家从患者评估等6个维度进行评分(总分60)。结果显示DeepSeek总分51.43分显著优于其他模型(P<0.001),在决策逻辑(8.80±0.40)和应急计划(8.27±0.45)得分最高,且各专科表现一致。研究证实LLMs具备麻醉决策潜力,但需注意专科差异及样本量限制。

  

摘要

本研究旨在评估和比较四种大型语言模型(LLMs)在危重产科和老年患者麻醉决策中的表现,并分析它们在不同外科专业领域的决策可靠性。采用标准化病例评估方法进行了前瞻性比较分析,涉及的LLMs包括ChatGPT-4o、Claude 3.5 Sonnet、DeepSeek-R1和Grok 3。共分析了30例复杂外科病例(10例产科病例,20例老年病例,涵盖8个外科专业)。通过一个12维的评估框架,使用统一的提示和决策点对这四种模型进行了测试。五名受过培训的麻醉医师从六个维度(患者评估、麻醉计划、风险管理、个性化处理、应急计划、决策逻辑;评分范围1-10分,总分为6-60分)对模型进行了独立评价。总体而言,DeepSeek的表现最佳(得分51.43±2.74分),显著优于其他模型(P<0.001)。在产科病例中,各模型的平均得分分别为:DeepSeek(52.00±1.83分)、Grok(49.40±3.06分)、ChatGPT(47.60±2.88分)和Claude(46.60±2.17分);在老年病例中,各模型的平均得分分别为:DeepSeek(51.15±3.10分)、Grok(48.60±2.33分)、ChatGPT(47.35±2.50分)和Claude(45.75±2.05分)。在所有外科专业中,DeepSeek在肝胆外科、烧伤外科和胸外科的表现最为突出。DeepSeek在所有维度上都表现出稳定的性能,在决策逻辑(8.80±0.40分)和应急计划(8.27±0.45分)方面具有显著优势。所有LLMs均展现了较强的麻醉决策能力,其中DeepSeek的整体表现最为优异。尽管样本量较小,探索性分析仍发现各模型在不同专业领域的表现存在差异。临床应用时应考虑专业特性和决策过程的特点。

本研究旨在评估和比较四种大型语言模型(LLMs)在危重产科和老年患者麻醉决策中的表现,并分析它们在不同外科专业领域的决策可靠性。采用标准化病例评估方法进行了前瞻性比较分析,涉及的LLMs包括ChatGPT-4o、Claude 3.5 Sonnet、DeepSeek-R1和Grok 3。共分析了30例复杂外科病例(10例产科病例,20例老年病例,涵盖8个外科专业)。通过一个12维的评估框架,使用统一的提示和决策点对这四种模型进行了测试。五名受过培训的麻醉医师从六个维度(患者评估、麻醉计划、风险管理、个性化处理、应急计划、决策逻辑;评分范围1-10分,总分为6-60分)对模型进行了独立评价。总体而言,DeepSeek的表现最佳(得分51.43±2.74分),显著优于其他模型(P<0.001)。在产科病例中,各模型的平均得分分别为:DeepSeek(52.00±1.83分)、Grok(49.40±3.06分)、ChatGPT(47.60±2.88分)和Claude(46.60±2.17分);在老年病例中,各模型的平均得分分别为:DeepSeek(51.15±3.10分)、Grok(48.60±2.33分)、ChatGPT(47.35±2.50分)和Claude(45.75±2.05分)。在所有外科专业中,DeepSeek在肝胆外科、烧伤外科和胸外科的表现最为突出。DeepSeek在所有维度上都表现出稳定的性能,在决策逻辑(8.80±0.40分)和应急计划(8.27±0.45分)方面具有显著优势。所有LLMs均展现了较强的麻醉决策能力,其中DeepSeek的整体表现最为优异。尽管样本量较小,探索性分析仍发现各模型在不同专业领域的表现存在差异。临床应用时应考虑专业特性和决策过程的特点。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号