以患者为中心的大语言模型在硬膜外镇痛教育方面的比较分析
《A&A Practice》:A Patient-Focused Comparative Analysis of Large Language Models for Epidural Analgesia Education
【字体:
大
中
小
】
时间:2025年09月29日
来源:A&A Practice 0.6
编辑推荐:
硬膜外麻醉是分娩镇痛的常用方法,患者常需了解其利弊。本研究比较了ChatGPT和MediSearch在提供患者教育信息中的可靠性与可读性,使用100个经Rothwell系统分类的问题进行评估。MediSearch在DISCERN可靠性评分中显著优于ChatGPT(P<0.0001),但Flesch-Kincaid可读性评分更高(14.88 vs 12.29);ChatGPT信息更易懂,但来源可靠性不足。两者均存在信息复杂性,提示AI工具需平衡准确性与易懂性,以支持患者知情决策。
这项研究聚焦于两种大型语言模型(LLMs)——ChatGPT和MediSearch,在用于患者教育方面的能力。随着人工智能技术在医疗领域的应用不断扩展,LLMs正逐渐成为向患者提供信息的重要工具。特别是针对分娩过程中常用的硬膜外镇痛(epidural analgesia)这一主题,研究者通过系统评估两种模型在信息可靠性和可读性方面的表现,探讨其在患者教育中的潜在价值和局限性。
硬膜外镇痛是一种区域麻醉方法,通过将局部麻醉药物(有时结合阿片类药物)注入硬膜外空间,以阻断疼痛感,从而帮助产妇缓解分娩时的疼痛。在美国,这种镇痛方式的使用率极高,约有79%的初产妇和64%的经产妇在分娩过程中选择接受硬膜外镇痛。这一现象反映了硬膜外镇痛在分娩疼痛管理中的普遍性和有效性。然而,尽管这种技术被广泛采用,许多患者仍希望了解更多关于其风险、益处以及预期效果的信息,以便做出更明智的决策。
在传统的医疗教育模式中,医生和护士通常是患者获取医疗信息的主要来源。但随着互联网的发展,越来越多的患者开始依赖在线资源来获取信息。与此同时,大型语言模型如ChatGPT和MediSearch因其能够快速生成内容、提供个性化回答的能力而受到关注。这些模型的出现为患者教育带来了新的可能性,但同时也引发了关于其信息准确性和可读性的问题。
研究者通过使用Google的“People Also Ask”功能,收集了100个与硬膜外镇痛相关的患者问题。这些问题按照Rothwell分类系统被分为三类:政策类、价值类和事实类。政策类问题通常涉及对某种行为或决策的判断,例如“我是否应该选择硬膜外镇痛?”价值类问题则关注对某个概念或方法的评估,例如“硬膜外镇痛的效果如何?”事实类问题则是对特定信息的确认,例如“硬膜外镇痛能持续多久?”
随后,研究者将这100个问题分别输入ChatGPT和MediSearch,以评估它们在信息可靠性(通过DISCERN评分)和可读性(通过Flesch-Kincaid Grade Level和Coleman-Liau Index)方面的表现。研究结果显示,MediSearch在DISCERN评分中表现显著优于ChatGPT(P < .0001),表明其在信息来源的可靠性和内容的客观性方面更胜一筹。而ChatGPT在可读性方面表现更佳,其Flesch-Kincaid Grade Level和Coleman-Liau Index的平均得分低于MediSearch(P = .0013和P = 7.257 × 10^-10),意味着其生成的内容更容易被患者理解。
这一发现揭示了两种模型在功能上的不同侧重点。MediSearch因其专注于医学领域,能够更有效地从大量的医学文献和临床数据中提取信息,从而提供更可靠、更科学的回答。然而,这种专注于科学准确性的特点也使得其内容在语言表达上更为复杂,可能对部分患者构成理解上的障碍。相比之下,ChatGPT以其自然、流畅的对话风格著称,能够将复杂的医学概念转化为更通俗易懂的语言,这有助于提高信息的可及性,尤其是在健康素养较低的患者群体中。
然而,研究也指出了一些重要的问题。首先,美国的健康素养水平相对较低,约有36%的居民处于基本或低于基本的健康素养水平。这意味着即使对于拥有较高一般教育水平的患者来说,理解医学信息仍然可能面临挑战。因此,患者教育材料需要在确保信息准确性的同时,也要兼顾语言的通俗性和易懂性,以适应不同背景的患者需求。
其次,尽管ChatGPT在可读性方面表现较好,但其在信息来源的可靠性上有所欠缺。DISCERN评分是一种用于评估消费者健康信息质量的工具,其五个维度包括信息目标是否明确、信息来源是否可靠、内容是否平衡、是否提供了额外信息来源以及是否提到了不确定性。ChatGPT在这些维度上的得分低于MediSearch,这可能意味着其生成的信息缺乏足够的证据支持,或者未能充分展示不同观点和可能的不确定性。这种信息的不完整性可能会影响患者的判断,甚至导致误解。
此外,研究还发现,两种模型在不同类型的患者问题上的表现存在差异。例如,在事实类问题中,ChatGPT的Coleman-Liau指数得分低于MediSearch,这表明其在表达事实性信息时更加简洁明了。然而,在政策类和价值类问题上,MediSearch的得分较高,这可能与其更注重科学严谨性和证据支持有关。这一结果表明,不同的患者问题类型可能需要不同的模型来提供最合适的答案。
研究的局限性也不容忽视。首先,研究仅限于两种免费版本的LLMs,未涉及更高级或付费的模型,这可能影响结论的普适性。其次,研究仅评估了100个问题,且集中在硬膜外镇痛这一特定主题上,未覆盖更广泛的医疗领域。因此,未来的研究可以进一步探索不同LLMs在多个医学主题上的表现,以及它们在不同患者群体中的适用性。
此外,研究未对模型生成内容的准确性进行直接评估。虽然DISCERN评分可以反映信息的可靠性和平衡性,但它并不能完全确保内容的正确性。因此,未来的研究可以引入更多的验证机制,例如与专业医学文献的对比、专家评审或患者反馈,以全面评估LLMs在患者教育中的实际效果。
最后,研究强调了在将LLMs应用于患者教育时,需要权衡信息的可靠性和可读性。虽然MediSearch在科学准确性方面表现突出,但其内容可能对部分患者不够友好;而ChatGPT虽然更易于理解,但在信息来源的可靠性上有所欠缺。因此,选择合适的模型取决于具体的使用场景和患者的需求。在某些情况下,如需要高度可靠的信息时,MediSearch可能是更优的选择;而在需要通俗易懂的解释时,ChatGPT则可能更受欢迎。
总体而言,这项研究为LLMs在患者教育中的应用提供了重要的参考。它不仅揭示了两种模型在表现上的差异,还指出了在实际应用中需要注意的问题。随着人工智能技术的不断发展,如何在保持信息可靠性的同时提高可读性,将成为LLMs在医疗领域应用的关键挑战。未来的研究可以进一步探索如何优化模型的输出,使其既能提供科学准确的信息,又能以患者易于理解的方式呈现。这不仅有助于提高患者教育的质量,也有助于增强患者对医疗信息的信任度,从而促进更有效的医患沟通和决策。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号