《米勒麻醉学复习》第4版

《A&A Practice》:Miller’s Anesthesia Review, 4th ed

【字体: 时间:2025年09月29日 来源:A&A Practice 0.6

编辑推荐:

  患者教育工具中ChatGPT与MediSearch在硬膜外麻醉信息可靠性(MediSearch更高)与可读性(ChatGPT更优)的对比研究,采用Rothwell系统分类100个问题,通过DISCERN评分及Flesch-Kincaid/Coleman-Liau指数评估,发现两模型在信息复杂度与准确性间存在显著权衡。

  本研究探讨了两种大型语言模型(LLMs)——ChatGPT和MediSearch在患者教育方面的表现,特别是针对分娩过程中常用的硬膜外麻醉(epidural analgesia)。随着数字化信息获取方式的普及,越来越多的患者倾向于通过在线平台获取关于医疗程序的详细信息。然而,如何确保这些信息既准确又易于理解,是当前医疗教育领域面临的重要挑战。硬膜外麻醉作为一种区域麻醉技术,广泛应用于分娩疼痛管理,其主要目的是通过将局部麻醉药物,有时会结合阿片类药物,注入脊椎周围的硬膜外空间,以阻断疼痛信号的传递。在美国,大约79%的初产妇和64%的经产妇选择使用硬膜外麻醉,这一高使用率反映了该技术在分娩疼痛管理中的普遍接受度和安全性。

然而,患者在选择是否使用硬膜外麻醉时,往往需要了解其潜在风险、益处以及替代方案。因此,提供清晰、准确且易于理解的信息对于患者做出知情决策至关重要。传统上,医疗信息主要由医护人员提供,但随着互联网的发展,患者开始更多地依赖在线资源。这种趋势促使研究人员关注大型语言模型在医疗教育中的应用潜力,尤其是在如何帮助不同教育背景和健康素养水平的患者获取信息方面。

本研究使用了100个与硬膜外麻醉相关的患者问题,这些问题来源于Google的“People Also Ask”(人们也问)部分,涵盖了“epidural”和“labor epidural”两个关键词。这些问题经过筛选和去重,最终形成了一个包含100个独特问题的集合。研究团队根据Rothwell分类系统对这些问题进行了分类,分为政策类(P)、事实类(F)和价值类(V)三种类型。政策类问题通常涉及是否应采取某种行动;事实类问题则关注信息的真实性;而价值类问题则涉及对某种医疗程序的评价或偏好。

为了评估两种语言模型的表现,研究团队分别输入这些问题到ChatGPT和MediSearch中,并对生成的回答进行了综合分析。评估方法包括DISCERN可靠性评分和两种阅读难度指标:Flesch-Kincaid Grade Level(FKGL)和Coleman-Liau Index(CLI)。DISCERN评分用于衡量信息的可信度和来源的可靠性,而阅读难度指标则用于评估信息是否容易被患者理解。研究结果显示,MediSearch在DISCERN评分上显著优于ChatGPT(P < .0001),这表明MediSearch在提供基于科学证据的可靠信息方面表现更佳。然而,ChatGPT在阅读难度指标上表现更优(P = .0013),说明其内容更易于理解。

这一发现揭示了一个重要的权衡:MediSearch虽然提供了更可靠的信息,但其语言较为复杂,可能对部分患者构成理解障碍;而ChatGPT虽然更易于阅读,但在信息来源的可靠性方面有所欠缺。因此,如何在两者之间找到平衡,成为医疗信息传播过程中需要解决的关键问题。研究团队还指出,美国的平均健康素养水平较低,约有36%的人口处于基本或低于基本的健康素养水平,这意味着即使具备一定的教育背景,部分患者仍可能难以理解复杂的医学信息。因此,医疗信息的表达方式需要更加贴近患者的需求,确保所有层次的患者都能从中受益。

为了进一步验证这一结果,研究团队对两种模型的回答进行了统计分析。首先,他们对每个评分体系下的数据进行了正态性检验,发现所有评分均不符合正态分布,因此采用了非参数检验方法,如Wilcoxon Rank Sum检验和Kruskal-Wallis检验。这些检验方法能够有效比较不同组别之间的差异,而无需假设数据服从特定分布。研究结果显示,在DISCERN评分中,MediSearch在所有100个问题上均优于ChatGPT,而在Flesch-Kincaid Grade Level和Coleman-Liau Index中,MediSearch也表现出更高的阅读难度。这一结果进一步支持了研究团队的假设:MediSearch在提供可靠信息方面更胜一筹,但其表达方式可能更难被普通患者理解。

此外,研究团队还分析了不同Rothwell分类问题的回答情况。结果显示,对于政策类问题,MediSearch的平均DISCERN评分和阅读难度均高于ChatGPT;对于事实类问题,MediSearch的平均阅读难度同样高于ChatGPT,但其DISCERN评分仍然保持优势;而对于价值类问题,MediSearch的阅读难度和DISCERN评分均高于ChatGPT。这表明,无论问题类型如何,MediSearch在信息的可靠性和科学性方面都表现得更为出色。然而,ChatGPT在阅读难度方面虽然略低,但其内容的可读性仍需提升,以确保所有患者都能从中获得有用的信息。

值得注意的是,研究团队发现Coleman-Liau Index评分在不同Rothwell分类问题中存在显著差异。对于事实类问题,ChatGPT的平均CLI评分低于MediSearch,这表明其内容更易于理解;而对于政策类和价值类问题,MediSearch的CLI评分更高,意味着其语言更加复杂。这一现象可能与问题的性质有关,例如政策类问题通常涉及决策建议,需要更精确和严谨的语言表达,而价值类问题则可能包含更多主观评价,也要求更高的信息准确性。因此,MediSearch在处理这类问题时,可能倾向于使用更专业的术语,从而提高了其内容的科学性和可靠性,但也增加了理解难度。

尽管研究结果表明MediSearch在可靠性方面更具优势,但ChatGPT的可读性仍然不可忽视。在医疗信息传播中,可读性同样重要,因为它直接影响患者对信息的理解程度和接受意愿。如果信息过于复杂,患者可能会感到困惑甚至产生误解,从而影响其决策过程。因此,研究团队建议,在使用大型语言模型进行患者教育时,应根据患者的具体需求和背景选择合适的工具。对于需要高度可靠信息的患者,MediSearch可能是更好的选择;而对于希望获得更通俗易懂信息的患者,ChatGPT则更具优势。

此外,研究团队还指出了一些研究的局限性。首先,本研究仅限于两种免费版本的LLMs,未涉及更高级或付费版本,这可能影响其结果的全面性。其次,研究样本仅包括100个问题,覆盖范围有限,未来研究可以扩展到更多问题和不同医疗领域。再次,本研究未评估LLMs回答的准确性,这可能成为未来研究的一个重要方向。最后,研究团队认为,进一步探索AI在其他常见医疗程序中的教育作用,有助于制定更科学、合理的患者教育策略。

综上所述,本研究为大型语言模型在医疗教育中的应用提供了重要参考。尽管MediSearch在信息的可靠性和科学性方面表现更优,但ChatGPT在可读性方面的优势也不容忽视。在实际应用中,医疗工作者和机构需要根据患者的具体需求,合理选择和使用这些工具,以确保信息既准确又易于理解。同时,随着AI技术的不断发展,未来的医疗教育材料可能会更加依赖这些智能工具,但如何在保证信息质量的前提下提高其可读性,将是医疗界和科技界共同面临的挑战。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号