利用经过验证的风险评分，大型语言模型进行临床风险计算

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Journal of Medical Systems》：Clinical Risk Computation by Large Language Models Using Validated Risk Scores

【字体：大中小】 时间：2025年10月01日 来源：Journal of Medical Systems 5.7

编辑推荐：

　　大语言模型在计算五种临床风险评分中表现不一，GPT-4omini和Gemini 2.5 Flash效果最佳但Framingham评分均失效。

摘要

人工智能的最新进展推动了大型语言模型（LLMs）在自然语言理解方面的发展，使得它们能够应用于医疗保健领域。虽然LLMs可以分析健康数据，但由于不准确性、偏见以及难以解读复杂的医疗数据，直接预测患者的风险评分并不可靠。一种更可靠的方法是利用LLMs来计算传统的临床风险评分——这些评分是基于医学界广泛认可的、经过验证的公式得出的。这种方法通过依赖成熟的评分系统而非LLM生成的风险评估来提高评估的有效性、透明度和安全性，同时仍允许LLMs通过清晰且易于解释的方式辅助临床工作流程。在本研究中，我们评估了三种公开可用的LLMs——GPT-4o-mini、DeepSeek v3和Google Gemini 2.5 Flash——在计算五种临床风险评分方面的表现：CHA?DS?-VASc、HAS-BLED、Wells评分、Charlson合并症指数和Framingham风险评分。我们创建了100个患者案例（每种评分20个），涵盖了多种临床场景，并将这些案例转化为自然语言形式的临床记录，作为LLMs提取信息和计算风险评分的输入。我们使用准确性、精确度、召回率、F1分数和皮尔逊相关性来比较LLMs生成的评分与基于验证公式的参考评分结果。GPT-4o-mini和Gemini 2.5 Flash的表现优于DeepSeek v3，在大多数评分指标上几乎达到了完美的一致性。然而，所有模型在处理复杂的Framingham风险评分时都遇到了困难，这表明通用LLMs在处理复杂风险计算方面仍存在挑战。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号