综述:评估大语言模型在消化系统疾病中应用的随机对照试验:一项范围综述

【字体: 时间:2025年09月28日 来源:Gastroenterology & Endoscopy

编辑推荐:

  本综述系统梳理了当前大语言模型(LLMs)在消化系统疾病领域的随机对照试验(RCTs)研究现状,涵盖已发表及注册中的试验。研究发现LLMs在临床决策支持、患者教育等任务中展现出潜力,但现有研究数量有限且以单中心为主,亟需更多国际多中心、高质量RCTs验证其临床效用与安全性。

  

引言

大语言模型(LLMs)作为基于Transformer架构的人工智能技术,能够理解和生成类人语言,自2022年ChatGPT发布后迅速渗透至医疗领域。消化系统疾病全球负担沉重,其诊疗过程涉及多源数据整合,对临床决策、患者教育和专业培训提出较高要求,而LLMs在这些领域可能发挥重要作用。然而,LLMs的应用也伴随幻觉输出、性能不一致、算法偏见等风险,需通过随机对照试验(RCTs)严格评估其临床效用与安全性。

方法

本研究遵循PRISMA-ScR指南,系统检索了PubMed、Web of Science等数据库中2022年至2025年的RCTs,并补充检索ClinicalTrials.gov和ICTRP平台中的注册试验。纳入标准为以LLMs为主要干预措施、针对消化系统疾病的RCTs,排除基础研究。数据提取涵盖研究设计、人群、任务类型、模型特性及结局指标,并使用Cochrane RoB 2工具评估偏倚风险。

结果

共识别出14项RCTs(4项已发表,10项进行中),主要来自中国和美国,以单中心研究为主。疾病聚焦于胃肠疾病(8项)和肝胆疾病(3项),目标人群包括患者、学生及医护人员。10项研究使用真实患者数据,4项基于模拟场景。
核心应用场景
  • 医疗任务:临床决策支持(5项)和患者教育(5项)为主,其次为医学教育(2项)及患者沟通(1项)。
  • NLP任务:11项研究聚焦问答任务,分类、对话和文本简化各1项。
  • 模型类型:通用LLMs(如ChatGPT)与领域专用模型(如GutGPT)应用比例相近,3项研究采用多模态LLMs(整合图像或语音)。
试验设计特征
  • 主要对比设计为“LLM辅助 vs 无辅助”(8项),结局指标多关注护理管理(6项)和患者体验(3项)。
  • 已发表试验初步显示LLMs在提升患者理解度、医学教育效果及临床信任度方面具有潜力,但均存在偏倚风险。
典型案例
  • GutGPT针对上消化道出血管理,结合风险预测与LLM决策支持,初步RCT显示其可提升医生对AI系统的信任度和知识掌握水平。
  • 一项试验比较ChatGPT与消化科医生生成的饮食指导,患者评价无显著差异。

讨论

当前LLMs在消化疾病领域的RCTs仍处于早期阶段,存在以下挑战与机遇:
  1. 1.
    证据缺口:研究数量少且异质性强,需更多以真实患者结局为重点的多中心试验。
  2. 2.
    模型选择:通用模型与领域专用模型的平衡需结合任务需求、资源成本及部署可行性综合考虑。
  3. 3.
    技术演进:多模态LLMs有望整合影像、语音等多维数据,但面临跨模态学习与计算效率的挑战。
  4. 4.
    伦理与报告规范:需关注数据隐私、算法公平性等问题,并采纳TRIPOD-LLM等专用报告框架提升透明度。
未来研究应优先开展国际合作、优化模型适配性,并严格遵循伦理与报告标准,以推动LLMs安全融入临床实践。

结论

本综述揭示了LLMs在消化系统疾病领域的应用潜力及当前证据基础的局限性。尽管初步结果积极,仍需设计严谨、关注真实世界结局的RCTs支持其临床转化。跨学科合作与标准化评估框架将是推动该领域发展的关键。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号