人工智能平台在腕管综合征常见问题解答中的效用比较：一项横断面研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年09月24日 来源：Journal of Hand Surgery Global Online CS1.1

编辑推荐：

　　本研究针对AI医疗信息可靠性问题，系统评估了ChatGPT 3.5、Google Gemini和Bing Copilot三大平台对腕管综合征（CTS）常见问题的回答质量。通过DISCERN量表和JAMA基准评估发现，各平台均达到"良好"水平（平均分45-48分），虽无显著差异但存在文献引用不足的共性缺陷。该研究为AI医疗咨询的临床应用提供了重要质量基准，对指导患者合理使用AI健康信息具有实践意义。

随着人工智能（AI）技术在医疗领域的爆炸式增长，患者越来越多地通过ChatGPT 3.5、Google Gemini和Bing Copilot等免费聊天机器人平台获取医疗信息。然而，这些AI生成信息的可靠性和完整性引发严重关切——特别是对于腕管综合征（Carpal Tunnel Syndrome, CTS）这种占所有神经病变90%的常见疾病，患者获取信息的准确性直接影响诊疗决策。

为解决这一问题，康涅狄格大学医学院的研究团队开展了一项开创性研究，系统评估三大主流AI平台在回答腕管综合征常见问题时的表现。这项发表在《Journal of Hand Surgery Global Online》的横断面研究，首次采用标准化评估工具对AI生成的骨科健康信息进行多维度质量分析。

研究人员采用多阶段混合方法：首先从学术性骨科和手外科网站提取10个CTS高频问题；于2024年6月25日统一向三大平台提问并收集回答；由三位资深手外科医生采用DISCERN量表（15项五点式评分，总分75）和JAMA（Journal of the American Medical Association）基准标准进行盲法评分；最后通过方差分析和混合效应模型处理评分数据，确保结果可靠性。

结果

Outcome data

所有聊天机器人的DISCERN评分均处于"良好"范围：ChatGPT平均45分，Bing Copilot 48分，Google Gemini 46分。当所有DISCERN标准均适用时，评分范围可达50-71分。JAMA评分显示ChatGPT和Google Gemini均获2.3分，优于Bing Copilot的1.8分。

Main results

单因素方差分析显示三组间无显著差异（P=0.43），但双因素方差分析发现评分者间存在显著差异（P<0.001）。混合效应模型在控制评分者偏差后，确认平台间差异无统计学意义。

Other analyses

Bing Copilot是唯一提供文献来源的平台，但来源质量未予评估。DISCERN与JAMA评分仅呈弱相关（Spearman系数0.1244，P=0.247），表明二者衡量信息质量的不同维度。

研究结论表明，三大AI平台在腕管综合征咨询中均提供相对可靠的信息，但存在普遍性缺陷：缺乏文献引用、潜在信息误解和固有偏见延续。尽管AI在标准化测试中表现优异，但其临床决策能力仍不可靠。该研究强调患者在使用AI医疗信息时应保持批判意识，同时建议未来研究拓展至更罕见骨科疾病，并评估患者对信息可读性的感知，以全面确立AI在医疗领域的资源价值。

这项研究为AI医疗信息质量评估建立了方法论范式，为临床医生指导患者使用AI工具提供了实证依据，对促进人工智能在医疗健康领域的规范应用具有里程碑意义。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号