
-
生物通官微
陪你抓住生命科技
跳动的脉搏
人工智能平台在腕管综合征常见问题解答中的效用比较:一项横断面研究
【字体: 大 中 小 】 时间:2025年09月24日 来源:Journal of Hand Surgery Global Online CS1.1
编辑推荐:
本研究针对AI医疗信息可靠性问题,系统评估了ChatGPT 3.5、Google Gemini和Bing Copilot三大平台对腕管综合征(CTS)常见问题的回答质量。通过DISCERN量表和JAMA基准评估发现,各平台均达到"良好"水平(平均分45-48分),虽无显著差异但存在文献引用不足的共性缺陷。该研究为AI医疗咨询的临床应用提供了重要质量基准,对指导患者合理使用AI健康信息具有实践意义。
随着人工智能(AI)技术在医疗领域的爆炸式增长,患者越来越多地通过ChatGPT 3.5、Google Gemini和Bing Copilot等免费聊天机器人平台获取医疗信息。然而,这些AI生成信息的可靠性和完整性引发严重关切——特别是对于腕管综合征(Carpal Tunnel Syndrome, CTS)这种占所有神经病变90%的常见疾病,患者获取信息的准确性直接影响诊疗决策。
为解决这一问题,康涅狄格大学医学院的研究团队开展了一项开创性研究,系统评估三大主流AI平台在回答腕管综合征常见问题时的表现。这项发表在《Journal of Hand Surgery Global Online》的横断面研究,首次采用标准化评估工具对AI生成的骨科健康信息进行多维度质量分析。
研究人员采用多阶段混合方法:首先从学术性骨科和手外科网站提取10个CTS高频问题;于2024年6月25日统一向三大平台提问并收集回答;由三位资深手外科医生采用DISCERN量表(15项五点式评分,总分75)和JAMA(Journal of the American Medical Association)基准标准进行盲法评分;最后通过方差分析和混合效应模型处理评分数据,确保结果可靠性。
结果
Outcome data
所有聊天机器人的DISCERN评分均处于"良好"范围:ChatGPT平均45分,Bing Copilot 48分,Google Gemini 46分。当所有DISCERN标准均适用时,评分范围可达50-71分。JAMA评分显示ChatGPT和Google Gemini均获2.3分,优于Bing Copilot的1.8分。
Main results
单因素方差分析显示三组间无显著差异(P=0.43),但双因素方差分析发现评分者间存在显著差异(P<0.001)。混合效应模型在控制评分者偏差后,确认平台间差异无统计学意义。
Other analyses
Bing Copilot是唯一提供文献来源的平台,但来源质量未予评估。DISCERN与JAMA评分仅呈弱相关(Spearman系数0.1244,P=0.247),表明二者衡量信息质量的不同维度。
研究结论表明,三大AI平台在腕管综合征咨询中均提供相对可靠的信息,但存在普遍性缺陷:缺乏文献引用、潜在信息误解和固有偏见延续。尽管AI在标准化测试中表现优异,但其临床决策能力仍不可靠。该研究强调患者在使用AI医疗信息时应保持批判意识,同时建议未来研究拓展至更罕见骨科疾病,并评估患者对信息可读性的感知,以全面确立AI在医疗领域的资源价值。
这项研究为AI医疗信息质量评估建立了方法论范式,为临床医生指导患者使用AI工具提供了实证依据,对促进人工智能在医疗健康领域的规范应用具有里程碑意义。
生物通微信公众号
知名企业招聘