
-
生物通官微
陪你抓住生命科技
跳动的脉搏
大型语言模型在肌肉骨骼疼痛治疗指南依从性中的多维评估:准确性与可操作性研究
【字体: 大 中 小 】 时间:2025年09月16日 来源:Clinical Rheumatology 2.8
编辑推荐:
本研究针对大型语言模型(LLMs)在肌肉骨骼疼痛治疗中提供非甾体抗炎药(NSAIDs)指南建议的可靠性问题,通过评估DeepSeek-R1、ChatGPT-4o、Gemini和Grok-3四大模型的准确性、可读性及可操作性,发现Gemini准确性最高(8.33±0.77),但所有模型均未达到临床行动力标准(≤33.5%),为AI临床辅助工具的优化提供了关键证据。
研究背景与意义
肌肉骨骼疼痛是全球致残的首要原因,约20%-33%人群受其困扰,而外用非甾体抗炎药(NSAIDs)因其靶向性强、全身副作用少成为临床首选。然而,患者常面临用药信息不明确的困境,大型语言模型(LLMs)作为新兴的临床决策辅助工具,其指南依从性及实用性尚未系统评估。随着ChatGPT-4o、Gemini等模型的快速迭代,亟需验证这些AI在复杂医疗场景中的可靠性——若错误推荐NSAIDs,可能引发心血管风险或消化道出血等严重后果。
研究方法与技术
研究团队基于《2022年外用NSAIDs肌肉骨骼疼痛多学科指南》设计6项临床问题,通过盲法评估对比四大LLM的响应质量(准确性、过度结论性、补充信息及完整性),采用标准化可读性指标(Flesch Reading Ease/Flesch-Kincaid Grade Level)和患者教育材料评估工具(PEMAT-P)量化行动力。所有数据经SPSS 29.0进行ANOVA分析,专家评分采用10分制Likert量表。
研究结果
准确性差异显著:Gemini以8.33±0.77分显著优于DeepSeek-R1(7.72±1.52,p=0.009),其89%回答达临床标准(≥8分),而DeepSeek-R1仅50%。

过度结论性风险:Grok-3表现最佳(4.56±1.42),显著低于ChatGPT-4o(6.72±1.49,p<0.001),后者44%回答存在过度自信表述。

可读性不足:所有模型文本难度达9-10年级水平(FRE 48-51),远超患者材料的8年级建议阈值。

行动力缺陷:最优的ChatGPT-4o行动力仅33.5±14.7%,未达70%合格线,且均未提及性别差异(如女性皮肤吸收率更高需调整剂量)。

结论与展望
该研究首次系统揭示LLMs在肌肉骨骼疼痛管理中的双面性:Gemini虽准确性领先,但Grok-3在避免过度结论上更优。核心局限在于行动力低下与可读性不足,可能阻碍患者实际应用。作者建议开发者需嵌入实时指南验证模块,并针对性别、年龄等变量优化训练数据;临床使用时需结合人工复核,尤其对75-84岁患者需警惕糖皮质激素的躯体功能影响。发表于《Clinical Rheumatology》的此项工作,为AI医疗工具的合规性设定了新基准。
生物通微信公众号
知名企业招聘