
-
生物通官微
陪你抓住生命科技
跳动的脉搏
利用经过验证的风险评分,大型语言模型进行临床风险计算
《Journal of Medical Systems》:Clinical Risk Computation by Large Language Models Using Validated Risk Scores
【字体: 大 中 小 】 时间:2025年10月01日 来源:Journal of Medical Systems 5.7
编辑推荐:
大语言模型在计算五种临床风险评分中表现不一,GPT-4omini和Gemini 2.5 Flash效果最佳但Framingham评分均失效。
人工智能的最新进展推动了大型语言模型(LLMs)在自然语言理解方面的发展,使得它们能够应用于医疗保健领域。虽然LLMs可以分析健康数据,但由于不准确性、偏见以及难以解读复杂的医疗数据,直接预测患者的风险评分并不可靠。一种更可靠的方法是利用LLMs来计算传统的临床风险评分——这些评分是基于医学界广泛认可的、经过验证的公式得出的。这种方法通过依赖成熟的评分系统而非LLM生成的风险评估来提高评估的有效性、透明度和安全性,同时仍允许LLMs通过清晰且易于解释的方式辅助临床工作流程。在本研究中,我们评估了三种公开可用的LLMs——GPT-4o-mini、DeepSeek v3和Google Gemini 2.5 Flash——在计算五种临床风险评分方面的表现:CHA?DS?-VASc、HAS-BLED、Wells评分、Charlson合并症指数和Framingham风险评分。我们创建了100个患者案例(每种评分20个),涵盖了多种临床场景,并将这些案例转化为自然语言形式的临床记录,作为LLMs提取信息和计算风险评分的输入。我们使用准确性、精确度、召回率、F1分数和皮尔逊相关性来比较LLMs生成的评分与基于验证公式的参考评分结果。GPT-4o-mini和Gemini 2.5 Flash的表现优于DeepSeek v3,在大多数评分指标上几乎达到了完美的一致性。然而,所有模型在处理复杂的Framingham风险评分时都遇到了困难,这表明通用LLMs在处理复杂风险计算方面仍存在挑战。
人工智能的最新进展推动了大型语言模型(LLMs)在自然语言理解方面的发展,使得它们能够应用于医疗保健领域。虽然LLMs可以分析健康数据,但由于不准确性、偏见以及难以解读复杂的医疗数据,直接预测患者的风险评分并不可靠。一种更可靠的方法是利用LLMs来计算传统的临床风险评分——这些评分是基于医学界广泛认可的、经过验证的公式得出的。这种方法通过依赖成熟的评分系统而非LLM生成的风险评估来提高评估的有效性、透明度和安全性,同时仍允许LLMs通过清晰且易于解释的方式辅助临床工作流程。在本研究中,我们评估了三种公开可用的LLMs——GPT-4o-mini、DeepSeek v3和Google Gemini 2.5 Flash——在计算五种临床风险评分方面的表现:CHA?DS?-VASc、HAS-BLED、Wells评分、Charlson合并症指数和Framingham风险评分。我们创建了100个患者案例(每种评分20个),涵盖了多种临床场景,并将这些案例转化为自然语言形式的临床记录,作为LLMs提取信息和计算风险评分的输入。我们使用准确性、精确度、召回率、F1分数和皮尔逊相关性来比较LLMs生成的评分与基于验证公式的参考评分结果。GPT-4o-mini和Gemini 2.5 Flash的表现优于DeepSeek v3,在大多数评分指标上几乎达到了完美的一致性。然而,所有模型在处理复杂的Framingham风险评分时都遇到了困难,这表明通用LLMs在处理复杂风险计算方面仍存在挑战。
生物通微信公众号
知名企业招聘