一种低成本、具有力感应功能的喉镜，用于监测插管训练过程中对牙齿施加的力

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《A&A Practice》：A Low-Cost, Force-Sensing Laryngoscope to Monitor Dental Force During Intubation Training

【字体：大中小】 时间：2025年09月29日 来源：A&A Practice 0.6

编辑推荐：

　　硬膜外麻醉患者教育中ChatGPT与MediSearch的可靠性及可读性对比研究，通过100个经Rothwell系统分类的问题评估发现：MediSearch在DISCERN可靠性评分中显著更高（P<0.0001），而ChatGPT在Flesch-Kincaid和Coleman-Liau可读性指标更优（P<0.001）。两者均存在信息复杂度问题，需平衡专业性与患者理解度。

　　本研究聚焦于在医疗领域中，特别是产妇在分娩过程中使用的一种常见镇痛方法——硬膜外麻醉（epidural analgesia）的患者教育。随着人工智能技术的快速发展，大型语言模型（LLMs）在医疗信息传播和患者教育方面展现出巨大的潜力。然而，这些模型在提供准确、可靠信息的同时，是否能够以患者易于理解的方式进行表达，仍然是一个值得深入探讨的问题。本文通过比较两个主流的LLMs——ChatGPT和MediSearch，分析它们在提供硬膜外麻醉相关患者教育信息时的表现，旨在为未来的医疗信息传播提供科学依据。

硬膜外麻醉是一种区域麻醉技术，广泛应用于分娩镇痛。它通过将局部麻醉药，有时会结合阿片类药物，注入硬膜外腔，以阻断疼痛信号的传递。在美国，这种镇痛方式的使用率极高，大约有79%的初产妇和64%的经产妇选择在分娩过程中使用硬膜外麻醉。这一现象表明，硬膜外麻醉已成为大多数产妇的首选镇痛方式。然而，随着使用率的上升，患者对这种镇痛方式的理解和认知也变得越来越重要。良好的患者教育不仅有助于提高产妇的满意度，还能在一定程度上减少医疗纠纷，提升整体医疗质量。

传统的患者教育主要依赖于医疗工作者的口头讲解和书面资料，如医院提供的宣传册、在线信息页面等。然而，这些资源往往存在一定的局限性，例如内容不够全面、语言较为专业、难以适应不同患者的理解水平等。近年来，随着互联网和移动设备的普及，越来越多的产妇开始通过网络平台获取相关信息。这种趋势促使研究者关注LLMs在患者教育中的应用，特别是在医疗信息的可读性和可靠性方面。

LLMs如ChatGPT和MediSearch因其强大的自然语言处理能力和广泛的应用场景，正逐渐成为患者获取医疗信息的重要工具。ChatGPT是由OpenAI开发的一种对话型模型，其训练数据涵盖大量文本信息，使得它能够生成接近人类语言的回复。尽管ChatGPT并非专门用于医疗领域，但其在处理复杂问题和简化专业术语方面的能力，使其在患者教育中具有一定的优势。而MediSearch则是专门为医疗场景设计的模型，能够高效地检索和整合大量医学文献和临床数据，从而提供更具科学性和证据支持的信息。

在本研究中，作者采用了“Rothwell分类系统”对100个与硬膜外麻醉相关的患者问题进行了分类，这些问题来源于Google的“People Also Ask”功能，该功能能够展示用户在搜索某一主题时所提出的相关问题。通过这一方法，研究人员收集了大量具有代表性的患者问题，涵盖了政策类、价值类和事实类三种类型。政策类问题通常涉及患者应采取何种行动来解决特定问题，例如“我是否应该选择硬膜外麻醉进行分娩？”价值类问题则要求对某种医疗实践进行评价，如“硬膜外麻醉的成功率如何？”事实类问题则直接询问某个信息的真实性，例如“硬膜外麻醉的持续时间有多长？”

为了评估这两款LLMs在患者教育中的表现，研究人员分别将这100个问题输入到ChatGPT和MediSearch中，记录并分析其回复。评估主要从两个方面进行：一是信息的可靠性，采用“DISCERN评分系统”进行衡量；二是信息的可读性，使用“Flesch-Kincaid Grade Level”和“Coleman-Liau Index”这两个标准进行评估。DISCERN评分系统是一种经过验证的评估工具，用于衡量消费者健康信息的质量，主要包括五个二元指标：目标是否清晰且达成、信息来源是否可靠、内容是否平衡和无偏见、是否提供了额外的信息来源、以及是否提及了不确定的领域。Flesch-Kincaid Grade Level和Coleman-Liau Index则分别衡量文本的复杂程度和阅读难度，其中前者代表所需教育水平，后者则更关注句子长度和词汇复杂度。

研究结果显示，MediSearch在可靠性方面显著优于ChatGPT，其DISCERN评分在所有100个问题中均高于ChatGPT（P < .0001）。这意味着，MediSearch生成的回答在信息来源、科学性以及平衡性方面表现更为出色，能够为患者提供更具权威性和证据支持的信息。相比之下，ChatGPT在可读性方面表现更优，其Flesch-Kincaid Grade Level和Coleman-Liau Index评分在大多数问题中均低于MediSearch（P = .0013和P = 7.257 × 10^-10）。这表明，ChatGPT能够以更简洁、更易懂的语言向患者传达信息，有助于提高信息的可及性。

然而，这一研究也揭示了一个重要的矛盾：可靠性与可读性之间的权衡。MediSearch虽然在提供准确、科学的信息方面表现突出，但其语言较为复杂，可能对部分患者造成理解上的困难。而ChatGPT虽然能够生成更易读的内容，但其信息来源的可靠性较低，缺乏明确的文献引用，这在医疗教育中可能带来一定的风险。因此，如何在确保信息可靠性的同时提升其可读性，成为LLMs在医疗领域应用中需要解决的关键问题。

为了进一步探讨这一问题，研究人员还对不同类型的患者问题进行了分类分析。结果显示，尽管两种模型在整体表现上存在差异，但在某些特定类型的患者问题上，其表现更为一致。例如，在事实类问题中，MediSearch的Coleman-Liau Index评分显著高于ChatGPT（P < .05），这表明MediSearch在处理需要精确回答的问题时，能够生成更具挑战性的文本，而ChatGPT则更倾向于提供简化的答案。这可能是因为MediSearch在训练过程中更注重医学文献的整合和引用，而ChatGPT则更倾向于以通俗易懂的方式表达信息。

此外，研究还指出，尽管LLMs在医疗信息传播方面具有潜力，但其在特定医疗领域的应用仍处于初步探索阶段。目前，大多数研究集中在手术类信息的传播上，而针对麻醉类信息的研究较少。这表明，未来的研究应更加关注LLMs在不同医疗专科中的应用，特别是在麻醉学领域。同时，随着LLMs的不断更新和优化，其在可靠性与可读性之间的平衡也可能发生变化。例如，一些研究发现，随着模型版本的升级，LLMs在提供准确信息的同时，也能够更好地适应不同患者的理解水平。

在实际应用中，LLMs的普及程度和使用成本也是需要考虑的重要因素。ChatGPT拥有超过3亿的月活跃用户，而MediSearch每月则吸引超过16万次访问。这表明，ChatGPT在用户基数和使用频率上具有明显优势，但其信息的可靠性仍需进一步验证。相比之下，MediSearch虽然在用户数量上不如ChatGPT，但其在提供专业、科学的信息方面具有更高的可信度。因此，在选择使用LLMs进行患者教育时，需要根据具体需求进行权衡。

本研究的另一个重要发现是，患者的健康素养水平对LLMs信息的理解能力有显著影响。美国的健康素养水平相对较低，约有36%的人口属于基本或低于基本水平。这意味着，即使是具备一般读写能力的患者，也可能在理解某些医学信息时遇到困难。因此，LLMs在提供信息时，需要考虑到患者的健康素养差异，采取适当的策略来优化信息的表达方式，使其更加适合不同层次的患者。

在可读性方面，研究指出，两种模型的文本大多需要至少高中水平的教育才能理解，部分甚至需要大学水平。这表明，当前LLMs生成的信息可能对部分低健康素养的患者构成障碍。因此，未来的LLMs开发应更加注重语言的通俗化和易读性，同时保持信息的科学性和可靠性。此外，研究还提到，尽管ChatGPT在可读性方面表现较好，但其缺乏明确的文献引用，这在医疗教育中可能会影响信息的可信度。

综上所述，本研究通过对比ChatGPT和MediSearch在硬膜外麻醉患者教育中的表现，揭示了LLMs在提供医疗信息时所面临的挑战。尽管ChatGPT在可读性方面具有优势，但其可靠性较低；而MediSearch虽然能够提供更准确、科学的信息，但其语言复杂度较高，可能影响部分患者的理解能力。因此，在实际应用中，需要根据具体的教育目标和患者群体，选择合适的LLMs工具。同时，未来的研究应进一步探索LLMs在不同医疗专科中的应用，以及如何通过技术优化来提升其在医疗信息传播中的效果。此外，还需关注LLMs在提高患者健康素养方面的潜力，使其能够更好地服务于不同层次的患者群体。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号