人工智能赋能小儿骨科：利用AI提升患者教育材料的可读性以弥合健康素养鸿沟

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年09月22日 来源：Journal of the Pediatric Orthopaedic Society of North America

编辑推荐：

　　本研究针对小儿骨科患者教育材料(PEMs)阅读水平普遍高于AMA和NIH推荐的6th grade水平的问题，探索了ChatGPT-4和OpenEvidence两种AI平台生成符合可读性标准PEMs的潜力。结果显示AI生成材料显著提升了可读性（ChatGPT达8.7 grade水平），且在治疗描述、时间线等维度接近专家验证材料质量，为AI辅助医疗内容创作提供了实证依据。

在当今医疗信息爆炸的时代，患者教育材料(PEMs)已成为医患沟通的重要桥梁。然而令人担忧的是，尽管美国医学会(AMA)和国家卫生研究院(NIH)明确建议PEMs应控制在6^th grade阅读水平，现实却远远落后于这一标准——研究表明骨科领域的PEMs平均阅读水平高达10^th grade以上。这种阅读难度与患者阅读能力之间的严重错位，对健康素养有限的患者群体造成了显著影响，他们面临更高的术后并发症、再入院率甚至死亡风险。

小儿骨科领域这一矛盾尤为突出。一项针对176份由美国骨科医师学会(AAOS)、北美小儿骨科协会(POSNA)等权威机构发布的PEMs研究发现，没有一份材料达到6^th grade阅读水平，仅7份(4%)低于8^th grade水平。当患者无法理解专业医疗材料时，他们往往会转向网络搜索引擎寻求更简单的答案，约70%的新诊断患者承认使用Google等搜索引擎查询健康信息。随着人工智能公司与搜索引擎平台的合作日益深入，评估AI生成医疗信息的准确性和可读性变得至关重要。

为此，研究团队开展了一项创新性研究，系统评估了AI平台生成小儿骨科PEMs的潜力。该研究发表在《Journal of the Pediatric Orthopaedic Society of North America》上，由北卡罗来纳大学教堂山分校医学院的Oceane Mauffrey、Shaian Lashani等学者共同完成。

研究人员采用多维度研究方法：首先从AAOS OrthoInfo数据库中选取51种常见小儿骨科疾病；使用标准化提示词让ChatGPT-4和OpenEvidence生成包含解剖、症状、检查和治疗等信息的6^th grade水平PEMs；通过Python Textstat库的8种验证可读性指标进行评估；最后由4名小儿骨科专家采用改良的3分量表对10种最常见疾病的PEMs进行盲法评分，评估准确性和完整性。

研究结果呈现出有趣的发现。在可读性方面，ChatGPT表现最为出色，平均阅读等级为8.7，显著低于OrthoInfo的10.8和OpenEvidence的10.1。具体到各个可读性指标，ChatGPT在所有8项指标上都优于OrthoInfo，在Flesch Reading Ease（易读性指数）、Flesch Kincaid Grade Level等多个指标上表现出统计学显著差异。值得注意的是，虽然ChatGPT在可读性上表现最佳，但其使用的困难词汇数量却最多，平均达到122.1个，显著高于OrthoInfo的76.2和OpenEvidence的62.1。

在内容质量评估方面，结果出现了明显分化。OrthoInfo在准确性和完整性总分上保持最高水平（准确性：6.95；完整性：6.98），显著高于ChatGPT（准确性：6.15；完整性：5.90）和OpenEvidence（准确性：3.25；完整性：3.05）。然而深入分析发现，ChatGPT在治疗描述、疾病时间线和随访建议等子维度与OrthoInfo无显著差异，表明AI在这些具体领域已接近专家水平。

两个AI平台之间的比较也显示出重要差异。ChatGPT在准确性和完整性上全面优于OpenEvidence，特别是在疾病解释、治疗选择描述、时间线规划和随访指南方面表现显著更好。只有在风险收益分析方面，两个平台没有显著差异。

讨论部分深入分析了这些发现的临床意义。研究人员指出，骨科健康素养问题比一般健康素养更为严峻——一项研究显示，急诊科骨科患者中69%存在肌肉骨骼素养不足，48%存在一般健康素养低下。甚至只有33%的患者能正确定义"骨折"这一基本概念。这种素养缺失凸显了提供易懂准确PEMs的紧迫性。

AI平台在解决这一问题上展现出独特优势，但也存在明显局限。ChatGPT虽然可读性最佳，但存在"幻觉"(hallucination)现象，即可能虚构信息填补知识空白，这对医疗决策尤其危险。此外，ChatGPT缺乏来源透明度，无法区分权威研究和网络博客的内容差异。OpenEvidence虽然提供同行评审参考文献，解决了部分透明度问题，但其可读性和内容质量相对较差。

研究也揭示了AI的潜在价值。ChatGPT在回答骨科知识测试时表现出相当于第一年骨科住院医师的水平，能够充分解释疾病基础知识和治疗选择。如果AI能帮助患者理解基本病情、治疗选择和何时需要临床就医，这已经是对现有难以获取资源的重要改进。

研究人员也坦率指出了研究的局限性：阅读评分工具虽经验证，但可能无法完全对应健康素养或患者理解程度；专家评估可能受到材料长度差异的影响；所有评审专家来自相同培训体系可能引入偏见；且仅使用单一提示词可能无法全面评估AI的一致性。

结论强调，现有小儿骨科PEMs虽然经过专家验证且内容详细，但许多患者缺乏理解这些材料所需的健康素养。大型骨科协会如POSNA和AAOS需要认识到这一差距并采取行动。虽然AI工具如ChatGPT和OpenEvidence在生成材料的准确性上存在差异，但ChatGPT在解释治疗选项、疾病时间线和随访建议方面表现出足够能力。患者和医生应谨慎使用这些工具，确保内容经过适当审查和验证，以避免错误的医疗决策。人工智能不能替代训练有素的小儿骨科医生的临床专业知识和经验，但这些模型可以帮助患者获得所需的基础理解，优化门诊时间，知道何时寻求骨科医生帮助以及询问哪些问题，从而为孩子做出更明智的决策。

这项研究为AI在医疗教育领域的应用提供了重要实证基础，指明了通过技术手段弥合健康素养差距的可能路径，为未来开发更智能、更可靠的患者教育工具奠定了理论基础。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号