人工智能在初级医疗急性病治疗处方中的应用:家庭医生与ChatGPT性能比较

【字体: 时间:2025年09月24日 来源:BMC Primary Care 2.6

编辑推荐:

  本刊推荐:为解决AI在初级医疗急性病治疗决策中的实际效能问题,研究人员开展了一项横断面研究,对比ChatGPT v3.5与家庭医生的处方准确性。结果显示:AI正确率达55.6%(医生54.3%),错误率仅5.2%(医生11%),证明AI可作为有效的临床辅助工具,为初级医疗数字化转型提供实证支持。

  

在21世纪医疗变革的浪潮中,人工智能(AI)被誉为"现代听诊器",正以前所未有的方式重塑医疗卫生体系。初级医疗作为医疗体系的第一道防线,面临着诊断准确性、医疗资源分配和诊疗效率等多重挑战。特别是在急性病诊疗领域,家庭医生需要在有限时间内对涵盖皮肤科、传染病、妇科、呼吸科等十余个专科的急性病症做出快速准确的诊疗决策,而人类医生的诊断一致性、治疗规范性等问题始终是医疗质量提升的关键瓶颈。

尽管AI技术在慢性病管理(如高血压优化治疗)、心电图(ECG)分析和皮肤病影像诊断等领域已展现出接近专科医生的能力,但其在初级医疗场景中的应用仍处于早期阶段。现有研究表明,针对初级医疗常见疾病的AI诊断算法准确性明显低于专科场景,且缺乏对急性病治疗决策的系统评估。更值得注意的是,随着ChatGPT等大型语言模型的普及,患者和医生都可能使用这类易获得的AI工具进行诊疗咨询,但其医学决策的可靠性和安全性尚未得到严格验证。

在此背景下,由Barbara Lemos Pereira Simao领衔的研究团队在《BMC Primary Care》发表了一项开创性研究,首次系统评估了ChatGPT v3.5在初级医疗急性病治疗处方中的表现,并与家庭医生的实际诊疗决策进行了直接对比。这项研究不仅填补了AI在初级医疗急性病治疗领域的证据空白,更为AI与临床实践的有效整合提供了重要依据。

研究人员采用多中心横断面研究设计,从葡萄牙中部地区三个家庭健康单元(FHUs)收集2024年11月的急性病诊疗数据。通过三阶段研究方案:首先由协作医生匿名提取860例急性病咨询的诊断和治疗方案;随后使用标准化提示语让ChatGPT v3.5基于相同诊断生成治疗建议;最后以Dynamed循证医学平台为金标准,双盲评估AI与医生处方的准确性。关键方法包括采用配对医生独立诊断验证、AI响应标准化采集、治疗建议三级分类(正确/近似/错误)体系,以及统计学分析比较。

结果

诊断一致性分析

在纳入分析的722例病例中,ChatGPT与医生治疗方案完全一致的比例为26.2%(225例),部分一致占28.7%(247例),完全不一致达29.1%(250例)。三个医疗单元的一致性率相近(26.1%-26.3%),表明AI与人类医生的决策模式存在系统性差异。

治疗准确性对比

以Dynamed指南为基准,ChatGPT展现出显著优势:正确率达55.6%(478例),高于医生的54.3%(467例);错误率仅5.2%(45例),显著低于医生的11.0%(95例)。在近似正确治疗方面,AI也以24.0%(206例)的比例超过医生的17.1%(147例)。

协同决策价值

当AI与医生决策不一致时,医生单独正确的病例占9.9%(85例),AI单独正确占9.8%(84例),显示二者具有互补潜力。令人警惕的是,两者一致但均错误的情况达3.8%(33例),提示盲目追随AI建议可能放大医疗错误。

讨论与结论

本研究首次实证表明,ChatGPT v3.5在初级医疗急性病治疗决策中已达到甚至略微超越家庭医生的准确性水平。这种优势不仅体现在更高的正确率(55.6% vs 54.3%)和更低的错误率(5.2% vs 11.0%),还表现在对非首选但合理的"近似治疗"有更好的识别能力(24.0% vs 17.1%)。这些发现颠覆了传统认知——一个未经医学专门训练的通用AI模型,仅通过语言学习就能在复杂医疗决策中与训练有素的医生相媲美。

更重要的是,研究揭示了AI与医生之间的决策互补性。在近10%的病例中,当一方决策错误时另一方却能正确,这种模式为构建"医生-AI协同决策"系统提供了实证基础。理想的工作流程可能是:医生进行初步诊断,AI提供治疗建议作为第二意见,医生结合临床经验最终决策,从而同时降低人类疏忽和AI幻觉的风险。

然而,研究者强调AI不应被视为医生的替代品,而应作为"助理、审计者和监督者"三重角色并存的辅助工具。作为助理,AI可处理文书工作和提供决策支持;作为审计者,可检查处方合理性;作为监督者,甚至可代行部分临床任务。这种协作模式特别有利于解决初级医疗中的长期挑战:减少行政负担、优化候诊名单管理、改善医患比例、加强专业间沟通,最终实现以患者为中心的医疗模式。

研究也指出了重要局限性。医疗记录不完整可能引入评估偏差,样本量虽达860例但仍需扩大以进行亚组分析。更关键的是,ChatGPT的信息来源和医学准确性验证机制仍不透明,这要求对AI的医疗应用保持谨慎乐观。未来研究应关注:开发专用初级医疗AI系统、验证不同年龄和病种的表现、建立AI医疗决策的监管框架。

这项研究标志着医疗AI发展的转折点——从理论探讨走向实践验证,从专科应用拓展到全科场景。随着ChatGPT等工具被公众广泛使用,医疗专业界必须主动引导其合理应用,通过医患教育、信任建立和网络安全措施,确保AI革命真正造福于人类健康。正如研究者所言:"医学的未来必然包含AI,我们有责任以安全有效的方式与它的进步保持同步。"

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号