利用经过验证的风险评分,大型语言模型进行临床风险计算

《Journal of Medical Systems》:Clinical Risk Computation by Large Language Models Using Validated Risk Scores

【字体: 时间:2025年10月01日 来源:Journal of Medical Systems 5.7

编辑推荐:

  大语言模型在计算五种临床风险评分中表现不一,GPT-4omini和Gemini 2.5 Flash效果最佳但Framingham评分均失效。

  

摘要

人工智能的最新进展推动了大型语言模型(LLMs)在自然语言理解方面的发展,使得它们能够应用于医疗保健领域。虽然LLMs可以分析健康数据,但由于不准确性、偏见以及难以解读复杂的医疗数据,直接预测患者的风险评分并不可靠。一种更可靠的方法是利用LLMs来计算传统的临床风险评分——这些评分是基于医学界广泛认可的、经过验证的公式得出的。这种方法通过依赖成熟的评分系统而非LLM生成的风险评估来提高评估的有效性、透明度和安全性,同时仍允许LLMs通过清晰且易于解释的方式辅助临床工作流程。在本研究中,我们评估了三种公开可用的LLMs——GPT-4o-mini、DeepSeek v3和Google Gemini 2.5 Flash——在计算五种临床风险评分方面的表现:CHA?DS?-VASc、HAS-BLED、Wells评分、Charlson合并症指数和Framingham风险评分。我们创建了100个患者案例(每种评分20个),涵盖了多种临床场景,并将这些案例转化为自然语言形式的临床记录,作为LLMs提取信息和计算风险评分的输入。我们使用准确性、精确度、召回率、F1分数和皮尔逊相关性来比较LLMs生成的评分与基于验证公式的参考评分结果。GPT-4o-mini和Gemini 2.5 Flash的表现优于DeepSeek v3,在大多数评分指标上几乎达到了完美的一致性。然而,所有模型在处理复杂的Framingham风险评分时都遇到了困难,这表明通用LLMs在处理复杂风险计算方面仍存在挑战。

人工智能的最新进展推动了大型语言模型(LLMs)在自然语言理解方面的发展,使得它们能够应用于医疗保健领域。虽然LLMs可以分析健康数据,但由于不准确性、偏见以及难以解读复杂的医疗数据,直接预测患者的风险评分并不可靠。一种更可靠的方法是利用LLMs来计算传统的临床风险评分——这些评分是基于医学界广泛认可的、经过验证的公式得出的。这种方法通过依赖成熟的评分系统而非LLM生成的风险评估来提高评估的有效性、透明度和安全性,同时仍允许LLMs通过清晰且易于解释的方式辅助临床工作流程。在本研究中,我们评估了三种公开可用的LLMs——GPT-4o-mini、DeepSeek v3和Google Gemini 2.5 Flash——在计算五种临床风险评分方面的表现:CHA?DS?-VASc、HAS-BLED、Wells评分、Charlson合并症指数和Framingham风险评分。我们创建了100个患者案例(每种评分20个),涵盖了多种临床场景,并将这些案例转化为自然语言形式的临床记录,作为LLMs提取信息和计算风险评分的输入。我们使用准确性、精确度、召回率、F1分数和皮尔逊相关性来比较LLMs生成的评分与基于验证公式的参考评分结果。GPT-4o-mini和Gemini 2.5 Flash的表现优于DeepSeek v3,在大多数评分指标上几乎达到了完美的一致性。然而,所有模型在处理复杂的Framingham风险评分时都遇到了困难,这表明通用LLMs在处理复杂风险计算方面仍存在挑战。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号