
-
生物通官微
陪你抓住生命科技
跳动的脉搏
大型语言模型在复杂麻醉决策中的表现:对四种大型语言模型在高风险患者中的比较研究
《Journal of Medical Systems》:Performance of Large Language Models in Complex Anesthesia Decision-Making: A Comparative Study of Four LLMs in High-Risk Patients
【字体: 大 中 小 】 时间:2025年10月02日 来源:Journal of Medical Systems 5.7
编辑推荐:
麻醉决策中大型语言模型性能比较及可靠性分析。研究采用标准化案例评估,对比ChatGPT-4o、Claude 3.5 Sonnet、DeepSeek-R1和Grok 3在30例危重产科(10例)和老年(20例)手术病例中的麻醉决策表现,覆盖8个外科专科。基于12维评估框架,5位麻醉学家从患者评估等6个维度进行评分(总分60)。结果显示DeepSeek总分51.43分显著优于其他模型(P<0.001),在决策逻辑(8.80±0.40)和应急计划(8.27±0.45)得分最高,且各专科表现一致。研究证实LLMs具备麻醉决策潜力,但需注意专科差异及样本量限制。
本研究旨在评估和比较四种大型语言模型(LLMs)在危重产科和老年患者麻醉决策中的表现,并分析它们在不同外科专业领域的决策可靠性。采用标准化病例评估方法进行了前瞻性比较分析,涉及的LLMs包括ChatGPT-4o、Claude 3.5 Sonnet、DeepSeek-R1和Grok 3。共分析了30例复杂外科病例(10例产科病例,20例老年病例,涵盖8个外科专业)。通过一个12维的评估框架,使用统一的提示和决策点对这四种模型进行了测试。五名受过培训的麻醉医师从六个维度(患者评估、麻醉计划、风险管理、个性化处理、应急计划、决策逻辑;评分范围1-10分,总分为6-60分)对模型进行了独立评价。总体而言,DeepSeek的表现最佳(得分51.43±2.74分),显著优于其他模型(P<0.001)。在产科病例中,各模型的平均得分分别为:DeepSeek(52.00±1.83分)、Grok(49.40±3.06分)、ChatGPT(47.60±2.88分)和Claude(46.60±2.17分);在老年病例中,各模型的平均得分分别为:DeepSeek(51.15±3.10分)、Grok(48.60±2.33分)、ChatGPT(47.35±2.50分)和Claude(45.75±2.05分)。在所有外科专业中,DeepSeek在肝胆外科、烧伤外科和胸外科的表现最为突出。DeepSeek在所有维度上都表现出稳定的性能,在决策逻辑(8.80±0.40分)和应急计划(8.27±0.45分)方面具有显著优势。所有LLMs均展现了较强的麻醉决策能力,其中DeepSeek的整体表现最为优异。尽管样本量较小,探索性分析仍发现各模型在不同专业领域的表现存在差异。临床应用时应考虑专业特性和决策过程的特点。
本研究旨在评估和比较四种大型语言模型(LLMs)在危重产科和老年患者麻醉决策中的表现,并分析它们在不同外科专业领域的决策可靠性。采用标准化病例评估方法进行了前瞻性比较分析,涉及的LLMs包括ChatGPT-4o、Claude 3.5 Sonnet、DeepSeek-R1和Grok 3。共分析了30例复杂外科病例(10例产科病例,20例老年病例,涵盖8个外科专业)。通过一个12维的评估框架,使用统一的提示和决策点对这四种模型进行了测试。五名受过培训的麻醉医师从六个维度(患者评估、麻醉计划、风险管理、个性化处理、应急计划、决策逻辑;评分范围1-10分,总分为6-60分)对模型进行了独立评价。总体而言,DeepSeek的表现最佳(得分51.43±2.74分),显著优于其他模型(P<0.001)。在产科病例中,各模型的平均得分分别为:DeepSeek(52.00±1.83分)、Grok(49.40±3.06分)、ChatGPT(47.60±2.88分)和Claude(46.60±2.17分);在老年病例中,各模型的平均得分分别为:DeepSeek(51.15±3.10分)、Grok(48.60±2.33分)、ChatGPT(47.35±2.50分)和Claude(45.75±2.05分)。在所有外科专业中,DeepSeek在肝胆外科、烧伤外科和胸外科的表现最为突出。DeepSeek在所有维度上都表现出稳定的性能,在决策逻辑(8.80±0.40分)和应急计划(8.27±0.45分)方面具有显著优势。所有LLMs均展现了较强的麻醉决策能力,其中DeepSeek的整体表现最为优异。尽管样本量较小,探索性分析仍发现各模型在不同专业领域的表现存在差异。临床应用时应考虑专业特性和决策过程的特点。