人工智能赋能小儿骨科:利用AI提升患者教育材料的可读性以弥合健康素养鸿沟

【字体: 时间:2025年09月22日 来源:Journal of the Pediatric Orthopaedic Society of North America

编辑推荐:

  本研究针对小儿骨科患者教育材料(PEMs)阅读水平普遍高于AMA和NIH推荐的6th grade水平的问题,探索了ChatGPT-4和OpenEvidence两种AI平台生成符合可读性标准PEMs的潜力。结果显示AI生成材料显著提升了可读性(ChatGPT达8.7 grade水平),且在治疗描述、时间线等维度接近专家验证材料质量,为AI辅助医疗内容创作提供了实证依据。

  

在当今医疗信息爆炸的时代,患者教育材料(PEMs)已成为医患沟通的重要桥梁。然而令人担忧的是,尽管美国医学会(AMA)和国家卫生研究院(NIH)明确建议PEMs应控制在6th grade阅读水平,现实却远远落后于这一标准——研究表明骨科领域的PEMs平均阅读水平高达10th grade以上。这种阅读难度与患者阅读能力之间的严重错位,对健康素养有限的患者群体造成了显著影响,他们面临更高的术后并发症、再入院率甚至死亡风险。

小儿骨科领域这一矛盾尤为突出。一项针对176份由美国骨科医师学会(AAOS)、北美小儿骨科协会(POSNA)等权威机构发布的PEMs研究发现,没有一份材料达到6th grade阅读水平,仅7份(4%)低于8th grade水平。当患者无法理解专业医疗材料时,他们往往会转向网络搜索引擎寻求更简单的答案,约70%的新诊断患者承认使用Google等搜索引擎查询健康信息。随着人工智能公司与搜索引擎平台的合作日益深入,评估AI生成医疗信息的准确性和可读性变得至关重要。

为此,研究团队开展了一项创新性研究,系统评估了AI平台生成小儿骨科PEMs的潜力。该研究发表在《Journal of the Pediatric Orthopaedic Society of North America》上,由北卡罗来纳大学教堂山分校医学院的Oceane Mauffrey、Shaian Lashani等学者共同完成。

研究人员采用多维度研究方法:首先从AAOS OrthoInfo数据库中选取51种常见小儿骨科疾病;使用标准化提示词让ChatGPT-4和OpenEvidence生成包含解剖、症状、检查和治疗等信息的6th grade水平PEMs;通过Python Textstat库的8种验证可读性指标进行评估;最后由4名小儿骨科专家采用改良的3分量表对10种最常见疾病的PEMs进行盲法评分,评估准确性和完整性。

研究结果呈现出有趣的发现。在可读性方面,ChatGPT表现最为出色,平均阅读等级为8.7,显著低于OrthoInfo的10.8和OpenEvidence的10.1。具体到各个可读性指标,ChatGPT在所有8项指标上都优于OrthoInfo,在Flesch Reading Ease(易读性指数)、Flesch Kincaid Grade Level等多个指标上表现出统计学显著差异。值得注意的是,虽然ChatGPT在可读性上表现最佳,但其使用的困难词汇数量却最多,平均达到122.1个,显著高于OrthoInfo的76.2和OpenEvidence的62.1。

在内容质量评估方面,结果出现了明显分化。OrthoInfo在准确性和完整性总分上保持最高水平(准确性:6.95;完整性:6.98),显著高于ChatGPT(准确性:6.15;完整性:5.90)和OpenEvidence(准确性:3.25;完整性:3.05)。然而深入分析发现,ChatGPT在治疗描述、疾病时间线和随访建议等子维度与OrthoInfo无显著差异,表明AI在这些具体领域已接近专家水平。

两个AI平台之间的比较也显示出重要差异。ChatGPT在准确性和完整性上全面优于OpenEvidence,特别是在疾病解释、治疗选择描述、时间线规划和随访指南方面表现显著更好。只有在风险收益分析方面,两个平台没有显著差异。

讨论部分深入分析了这些发现的临床意义。研究人员指出,骨科健康素养问题比一般健康素养更为严峻——一项研究显示,急诊科骨科患者中69%存在肌肉骨骼素养不足,48%存在一般健康素养低下。甚至只有33%的患者能正确定义"骨折"这一基本概念。这种素养缺失凸显了提供易懂准确PEMs的紧迫性。

AI平台在解决这一问题上展现出独特优势,但也存在明显局限。ChatGPT虽然可读性最佳,但存在"幻觉"(hallucination)现象,即可能虚构信息填补知识空白,这对医疗决策尤其危险。此外,ChatGPT缺乏来源透明度,无法区分权威研究和网络博客的内容差异。OpenEvidence虽然提供同行评审参考文献,解决了部分透明度问题,但其可读性和内容质量相对较差。

研究也揭示了AI的潜在价值。ChatGPT在回答骨科知识测试时表现出相当于第一年骨科住院医师的水平,能够充分解释疾病基础知识和治疗选择。如果AI能帮助患者理解基本病情、治疗选择和何时需要临床就医,这已经是对现有难以获取资源的重要改进。

研究人员也坦率指出了研究的局限性:阅读评分工具虽经验证,但可能无法完全对应健康素养或患者理解程度;专家评估可能受到材料长度差异的影响;所有评审专家来自相同培训体系可能引入偏见;且仅使用单一提示词可能无法全面评估AI的一致性。

结论强调,现有小儿骨科PEMs虽然经过专家验证且内容详细,但许多患者缺乏理解这些材料所需的健康素养。大型骨科协会如POSNA和AAOS需要认识到这一差距并采取行动。虽然AI工具如ChatGPT和OpenEvidence在生成材料的准确性上存在差异,但ChatGPT在解释治疗选项、疾病时间线和随访建议方面表现出足够能力。患者和医生应谨慎使用这些工具,确保内容经过适当审查和验证,以避免错误的医疗决策。人工智能不能替代训练有素的小儿骨科医生的临床专业知识和经验,但这些模型可以帮助患者获得所需的基础理解,优化门诊时间,知道何时寻求骨科医生帮助以及询问哪些问题,从而为孩子做出更明智的决策。

这项研究为AI在医疗教育领域的应用提供了重要实证基础,指明了通过技术手段弥合健康素养差距的可能路径,为未来开发更智能、更可靠的患者教育工具奠定了理论基础。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号