一种低成本、具有力感应功能的喉镜,用于监测插管训练过程中对牙齿施加的力

《A&A Practice》:A Low-Cost, Force-Sensing Laryngoscope to Monitor Dental Force During Intubation Training

【字体: 时间:2025年09月29日 来源:A&A Practice 0.6

编辑推荐:

  硬膜外麻醉患者教育中ChatGPT与MediSearch的可靠性及可读性对比研究,通过100个经Rothwell系统分类的问题评估发现:MediSearch在DISCERN可靠性评分中显著更高(P<0.0001),而ChatGPT在Flesch-Kincaid和Coleman-Liau可读性指标更优(P<0.001)。两者均存在信息复杂度问题,需平衡专业性与患者理解度。

  本研究聚焦于在医疗领域中,特别是产妇在分娩过程中使用的一种常见镇痛方法——硬膜外麻醉(epidural analgesia)的患者教育。随着人工智能技术的快速发展,大型语言模型(LLMs)在医疗信息传播和患者教育方面展现出巨大的潜力。然而,这些模型在提供准确、可靠信息的同时,是否能够以患者易于理解的方式进行表达,仍然是一个值得深入探讨的问题。本文通过比较两个主流的LLMs——ChatGPT和MediSearch,分析它们在提供硬膜外麻醉相关患者教育信息时的表现,旨在为未来的医疗信息传播提供科学依据。

硬膜外麻醉是一种区域麻醉技术,广泛应用于分娩镇痛。它通过将局部麻醉药,有时会结合阿片类药物,注入硬膜外腔,以阻断疼痛信号的传递。在美国,这种镇痛方式的使用率极高,大约有79%的初产妇和64%的经产妇选择在分娩过程中使用硬膜外麻醉。这一现象表明,硬膜外麻醉已成为大多数产妇的首选镇痛方式。然而,随着使用率的上升,患者对这种镇痛方式的理解和认知也变得越来越重要。良好的患者教育不仅有助于提高产妇的满意度,还能在一定程度上减少医疗纠纷,提升整体医疗质量。

传统的患者教育主要依赖于医疗工作者的口头讲解和书面资料,如医院提供的宣传册、在线信息页面等。然而,这些资源往往存在一定的局限性,例如内容不够全面、语言较为专业、难以适应不同患者的理解水平等。近年来,随着互联网和移动设备的普及,越来越多的产妇开始通过网络平台获取相关信息。这种趋势促使研究者关注LLMs在患者教育中的应用,特别是在医疗信息的可读性和可靠性方面。

LLMs如ChatGPT和MediSearch因其强大的自然语言处理能力和广泛的应用场景,正逐渐成为患者获取医疗信息的重要工具。ChatGPT是由OpenAI开发的一种对话型模型,其训练数据涵盖大量文本信息,使得它能够生成接近人类语言的回复。尽管ChatGPT并非专门用于医疗领域,但其在处理复杂问题和简化专业术语方面的能力,使其在患者教育中具有一定的优势。而MediSearch则是专门为医疗场景设计的模型,能够高效地检索和整合大量医学文献和临床数据,从而提供更具科学性和证据支持的信息。

在本研究中,作者采用了“Rothwell分类系统”对100个与硬膜外麻醉相关的患者问题进行了分类,这些问题来源于Google的“People Also Ask”功能,该功能能够展示用户在搜索某一主题时所提出的相关问题。通过这一方法,研究人员收集了大量具有代表性的患者问题,涵盖了政策类、价值类和事实类三种类型。政策类问题通常涉及患者应采取何种行动来解决特定问题,例如“我是否应该选择硬膜外麻醉进行分娩?”价值类问题则要求对某种医疗实践进行评价,如“硬膜外麻醉的成功率如何?”事实类问题则直接询问某个信息的真实性,例如“硬膜外麻醉的持续时间有多长?”

为了评估这两款LLMs在患者教育中的表现,研究人员分别将这100个问题输入到ChatGPT和MediSearch中,记录并分析其回复。评估主要从两个方面进行:一是信息的可靠性,采用“DISCERN评分系统”进行衡量;二是信息的可读性,使用“Flesch-Kincaid Grade Level”和“Coleman-Liau Index”这两个标准进行评估。DISCERN评分系统是一种经过验证的评估工具,用于衡量消费者健康信息的质量,主要包括五个二元指标:目标是否清晰且达成、信息来源是否可靠、内容是否平衡和无偏见、是否提供了额外的信息来源、以及是否提及了不确定的领域。Flesch-Kincaid Grade Level和Coleman-Liau Index则分别衡量文本的复杂程度和阅读难度,其中前者代表所需教育水平,后者则更关注句子长度和词汇复杂度。

研究结果显示,MediSearch在可靠性方面显著优于ChatGPT,其DISCERN评分在所有100个问题中均高于ChatGPT(P < .0001)。这意味着,MediSearch生成的回答在信息来源、科学性以及平衡性方面表现更为出色,能够为患者提供更具权威性和证据支持的信息。相比之下,ChatGPT在可读性方面表现更优,其Flesch-Kincaid Grade Level和Coleman-Liau Index评分在大多数问题中均低于MediSearch(P = .0013和P = 7.257 × 10^-10)。这表明,ChatGPT能够以更简洁、更易懂的语言向患者传达信息,有助于提高信息的可及性。

然而,这一研究也揭示了一个重要的矛盾:可靠性与可读性之间的权衡。MediSearch虽然在提供准确、科学的信息方面表现突出,但其语言较为复杂,可能对部分患者造成理解上的困难。而ChatGPT虽然能够生成更易读的内容,但其信息来源的可靠性较低,缺乏明确的文献引用,这在医疗教育中可能带来一定的风险。因此,如何在确保信息可靠性的同时提升其可读性,成为LLMs在医疗领域应用中需要解决的关键问题。

为了进一步探讨这一问题,研究人员还对不同类型的患者问题进行了分类分析。结果显示,尽管两种模型在整体表现上存在差异,但在某些特定类型的患者问题上,其表现更为一致。例如,在事实类问题中,MediSearch的Coleman-Liau Index评分显著高于ChatGPT(P < .05),这表明MediSearch在处理需要精确回答的问题时,能够生成更具挑战性的文本,而ChatGPT则更倾向于提供简化的答案。这可能是因为MediSearch在训练过程中更注重医学文献的整合和引用,而ChatGPT则更倾向于以通俗易懂的方式表达信息。

此外,研究还指出,尽管LLMs在医疗信息传播方面具有潜力,但其在特定医疗领域的应用仍处于初步探索阶段。目前,大多数研究集中在手术类信息的传播上,而针对麻醉类信息的研究较少。这表明,未来的研究应更加关注LLMs在不同医疗专科中的应用,特别是在麻醉学领域。同时,随着LLMs的不断更新和优化,其在可靠性与可读性之间的平衡也可能发生变化。例如,一些研究发现,随着模型版本的升级,LLMs在提供准确信息的同时,也能够更好地适应不同患者的理解水平。

在实际应用中,LLMs的普及程度和使用成本也是需要考虑的重要因素。ChatGPT拥有超过3亿的月活跃用户,而MediSearch每月则吸引超过16万次访问。这表明,ChatGPT在用户基数和使用频率上具有明显优势,但其信息的可靠性仍需进一步验证。相比之下,MediSearch虽然在用户数量上不如ChatGPT,但其在提供专业、科学的信息方面具有更高的可信度。因此,在选择使用LLMs进行患者教育时,需要根据具体需求进行权衡。

本研究的另一个重要发现是,患者的健康素养水平对LLMs信息的理解能力有显著影响。美国的健康素养水平相对较低,约有36%的人口属于基本或低于基本水平。这意味着,即使是具备一般读写能力的患者,也可能在理解某些医学信息时遇到困难。因此,LLMs在提供信息时,需要考虑到患者的健康素养差异,采取适当的策略来优化信息的表达方式,使其更加适合不同层次的患者。

在可读性方面,研究指出,两种模型的文本大多需要至少高中水平的教育才能理解,部分甚至需要大学水平。这表明,当前LLMs生成的信息可能对部分低健康素养的患者构成障碍。因此,未来的LLMs开发应更加注重语言的通俗化和易读性,同时保持信息的科学性和可靠性。此外,研究还提到,尽管ChatGPT在可读性方面表现较好,但其缺乏明确的文献引用,这在医疗教育中可能会影响信息的可信度。

综上所述,本研究通过对比ChatGPT和MediSearch在硬膜外麻醉患者教育中的表现,揭示了LLMs在提供医疗信息时所面临的挑战。尽管ChatGPT在可读性方面具有优势,但其可靠性较低;而MediSearch虽然能够提供更准确、科学的信息,但其语言复杂度较高,可能影响部分患者的理解能力。因此,在实际应用中,需要根据具体的教育目标和患者群体,选择合适的LLMs工具。同时,未来的研究应进一步探索LLMs在不同医疗专科中的应用,以及如何通过技术优化来提升其在医疗信息传播中的效果。此外,还需关注LLMs在提高患者健康素养方面的潜力,使其能够更好地服务于不同层次的患者群体。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号