大型语言模型在再生医学指南中的指称性幻觉与临床可靠性:基于慢性疼痛治疗指南的比较分析
【字体:
大
中
小
】
时间:2025年09月28日
来源:Rheumatology International 2.9
编辑推荐:
本研究针对LLM在慢性疼痛再生疗法指南回答中的指称性幻觉与临床可靠性问题,通过多维度评估发现Claude 4 Opus在准确性(4.06±0.68)、可靠性(5.19±1.11)及降低幻觉率(RHS 4.44±3.18)方面显著优于ChatGPT-4o和Gemini 2.5,为临床AI应用提供重要参考依据。
研究人员开展了一项横断面研究,比较了三种大型语言模型(LLM)——ChatGPT-4o、Gemini 2.5 Flash和Claude 4 Opus——在回答基于美国疼痛与神经科学学会(ASPN)慢性疼痛再生治疗指南的16个开放式问题时的表现。研究从准确性、可靠性、实用性、可读性、语义相似度和幻觉率等多个维度进行了全面评估。
结果显示,Claude 4 Opus在临床可靠性(5.19±1.11,7点李克特量表)、实用性(5.06±1.0)和临床准确性(4.06±0.68,5点量表)方面均显著领先,其指称性幻觉评分(RHS)最低(4.44±3.18),远低于ChatGPT-4o(8.38±1.86)和Gemini 2.5(8.75±1.73)。在语义相似度(USE)方面,Claude(0.68±0.08)和Gemini(0.65±0.07)表现优于ChatGPT-4o(0.60±0.09),而Gemini在ROUGE-L F1分数(0.12±0.03)上略胜一筹。可读性指标(FKRE、FKGL)在各模型间相近,但Gemini的Flesch-Kincaid年级水平(FKGL)略高(11.3±1.06)。该研究为LLM在专业医疗场景中的可靠性提供了重要实证,并指出需进一步探索其临床应用的优化路径。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号