综述:不同人工智能模型在早期胃癌诊断中的比较准确性:一项系统评价和荟萃分析

《Frontiers in Oncology》:Comparative diagnostic accuracy of different artificial intelligence models for early gastric cancer: a systematic review and meta-analysis

【字体: 时间:2025年11月19日 来源:Frontiers in Oncology 3.3

编辑推荐:

  本研究通过系统综述和元分析评估人工智能在早期胃癌诊断中的准确性,比较不同模型(CNN、DCNN、SVM)的性能,并探讨动态视频验证的应用。结果显示,AI模型(尤其是DCNN)敏感性为0.90,特异性0.92,AUC 0.96,动态视频验证AUC达0.98。但存在发表偏倚、异质性高及缺乏动态验证等问题。结论指出AI模型,尤其是DCNN,在EGC诊断中表现优异,未来需改进可解释性、前瞻性验证及多模态融合。

  早期胃癌(EGC)的及时诊断对患者的预后至关重要。然而,传统内镜诊断方法依赖于医生的经验,存在一定的局限性。为了解决这一问题,近年来人工智能(AI)技术在内镜图像分析领域展现出显著的优势。本文通过系统综述和荟萃分析的方法,全面评估了AI在EGC诊断中的准确性,并对不同AI模型的性能进行了比较,为未来AI在临床中的应用提供了科学依据。

### 背景与意义

胃癌是一种全球范围内发病率和死亡率均较高的恶性肿瘤。早期胃癌指的是癌变局限于胃黏膜或黏膜下层的病变,如果能在早期被发现并采用内镜黏膜下剥离术(ESD)等微创治疗方法,患者的5年生存率可超过70%,同时医疗负担也远低于晚期胃癌。然而,EGC的内镜诊断面临诸多挑战,其病变通常表现为黏膜表面的细微颜色变化、异常微血管结构或轻微的隆起/凹陷。这些特征在初级医疗机构或经验不足的内镜医师手中容易被忽视,导致误诊率超过20%。因此,开发一种更准确、更稳定的诊断工具成为医学界的重要课题。

近年来,人工智能技术,尤其是深度学习(DL)和卷积神经网络(CNN)的突破,为内镜图像分析带来了新的可能性。已有研究表明,AI能够自动提取病变的纹理、形态和微血管模式等特征,从而实现对EGC的准确识别。例如,EfficientNetB7模型在白光内镜图像中对EGC的诊断准确率达到了97.88%,远超传统医生的诊断水平。尽管如此,现有研究在模型架构、数据来源、以及实际应用场景等方面仍存在不足,特别是缺乏对动态视频数据的系统分析和对模型性能差异的定量研究。

### 研究方法

本研究遵循系统综述和荟萃分析的Preferred Reporting Items for Systematic Reviews and Meta-Analyses(PRISMA)指南,并在PROSPERO平台注册(注册号:CRD420251003071)。研究团队系统检索了PubMed、Embase、Web of Science、Cochrane Library和中国知网(CNKI)等数据库,时间范围从数据库建立之初至2025年1月。关键词包括“人工智能”、“机器学习”、“深度学习”、“卷积神经网络”、“支持向量机”、“随机森林”、“早期胃癌”、“内镜”、“诊断”和“准确性”。通过这些关键词的组合,研究者筛选出所有符合纳入标准的文献,并对每项研究的特征进行了独立提取。

纳入标准要求研究必须评估AI模型在EGC诊断中的性能,且需提供敏感性、特异性或可用于计算这些指标的原始数据(如真阳性、假阳性、真阴性、假阴性等)。此外,研究需使用组织病理学检查作为诊断的金标准,并且发表在同行评审的期刊上,且全文可获取。排除标准包括:未明确AI模型类型的研究、未报告诊断性能指标的研究、研究对象为晚期胃癌或其他胃肠道疾病、非原创研究(如个案报告、综述文章和会议摘要)等。

在数据提取过程中,两名研究者独立完成,以确保数据的准确性和客观性。如果数据缺失,研究团队会联系作者获取补充信息。在提取过程中出现分歧时,会由第三名研究者协助解决。所有研究的敏感性、特异性和AUC值均采用双变量随机效应模型进行汇总分析,并通过亚组分析探讨不同AI模型类型对诊断性能的影响。

### 研究结果

最终,研究团队纳入了26项研究,共计43,088例患者。这些研究涵盖了内镜图像和视频数据,其中大部分为回顾性研究(占88.46%),仅有3项为前瞻性研究(占11.54%)。AI模型类型方面,21项研究(80.77%)采用了卷积神经网络(CNN),包括经典CNN及其改进版本;2项研究(7.69%)使用了支持向量机(SVM);1项研究(3.85%)采用了其他模型,但未详细说明其具体结构。

汇总分析结果显示,AI模型在EGC诊断中的敏感性为0.90(95% CI:0.87–0.93),特异性为0.92(95% CI:0.87–0.95),AUC为0.96(95% CI:0.94–0.98),表明AI在EGC诊断中具有较高的准确性。进一步的亚组分析表明,深度卷积神经网络(DCNN)的敏感性显著高于传统CNN(0.94 vs. 0.89),而特异性几乎相等(0.91 vs. 0.91)。此外,在动态视频验证中,AI模型的AUC达到了0.98,显著优于临床医师的水平(AUC 0.85–0.90),显示出AI在实时诊断场景中的巨大潜力。

然而,研究结果也揭示了研究间的异质性问题。敏感性异质性达到97.1%,特异性异质性为97.8%,这表明不同研究在AI模型结构、数据来源、以及内镜图像类型等方面存在显著差异。部分研究的敏感性或特异性范围较广,可能与其样本量较小或数据质量不稳定有关。例如,Wu 2021的研究样本量仅为3例,其敏感性为1.00,但95% CI为0.29–1.00,显示出数据的波动性。同样,Zhang 2021的研究由于数据失衡(EGC仅占22.6%),其特异性仅为0.39,成为研究中的异常点。

在对AI模型的亚组分析中,非CNN模型(如DCNN)的敏感性(0.93 vs. 0.89)和特异性(0.96 vs. 0.90)均优于CNN模型,且其诊断优势比(DOR)和阳性似然比(LR+)也显著提高(DOR:286.16 vs. 73.69;LR+:21.55 vs. 8.69)。不过,非CNN模型的置信区间较宽,表明其在实际应用中仍存在一定的不确定性。这可能与样本量不足或模型复杂度带来的性能波动有关。

在内镜图像类型方面,窄带成像(NBI)表现出优于非NBI技术的诊断性能。NBI的敏感性为0.94,特异性为0.94,显著高于非NBI的0.85和0.87。此外,NBI的DOR(243.00)和LR+(15.00)均显著高于非NBI(DOR:39.73,LR+:6.75),同时其假阳性率也更低(6.3% vs. 12.6%)。这一结果表明,NBI在提升AI模型的诊断能力方面具有重要作用,尤其是在微血管结构的可视化方面。

然而,研究还发现,回顾性研究与前瞻性研究在敏感性和特异性上没有显著差异(p = 0.58和p = 0.74),但回顾性研究的置信区间更窄,可能与其数据收集的标准化程度较高有关。相比之下,前瞻性研究的置信区间更宽,反映出实际临床环境中变量控制的困难。此外,AI模型的性能差异并未在模型类型或研究设计上达到统计学显著性,说明模型结构或数据来源的异质性可能对结果产生了更大的影响。

### 公布偏倚评估

为了确保研究结果的可靠性,本研究还对公布偏倚进行了严格评估。采用Egger’s回归测试、Begg’s秩相关测试和Trim-and-Fill方法,结果显示存在显著的小样本效应(Egger’s测试:截距 = 3.03,p = 0.003),这表明在小样本研究中,AI模型的诊断性能可能被高估。Trim-and-Fill分析补全了4项缺失研究,将汇总的DOR从83降至46.997(95% CI:22.702–97.291),但仍保持统计学显著性(p < 0.001),说明AI在EGC诊断中的优势具有一定的稳健性。尽管如此,研究仍存在一定的偏倚风险,如选择性发表、小样本研究的质量缺陷以及语言和数据库限制等。

具体而言,研究团队发现,期刊更倾向于发表AI诊断性能优异的研究,而那些结果不显著或存在负效应的研究可能未被发表,从而导致结果的偏倚。此外,小样本研究常因方法学限制而出现数据失真,这些异常点在漏斗图中位于上左区域,进一步加剧了结果的不对称性。语言和数据库的限制也可能导致部分非英语或未在正式期刊发表的研究被遗漏,影响结论的全面性。

### 讨论与展望

本研究的结果表明,AI模型,特别是基于CNN的架构,在EGC的内镜诊断中展现出较高的敏感性和特异性。这些模型在实际应用中能够辅助内镜医师进行诊断,尤其是在初级医疗机构或资源有限的环境中。动态视频验证的结果进一步显示,AI模型在实时分析内镜图像方面具有显著优势,能够减少因操作者经验差异而导致的诊断不一致。

然而,尽管AI在EGC诊断中表现出色,其在临床中的广泛应用仍面临诸多挑战。首先,AI模型的性能在不同研究中存在显著异质性,这可能与研究设计、数据来源、模型结构以及内镜图像类型等多种因素有关。其次,大多数AI模型仍依赖于回顾性静态图像数据,缺乏对动态视频数据的系统验证,这可能影响其在真实临床环境中的适用性。此外,AI模型的“黑箱”特性限制了其在临床中的解释性和可接受度,使得医生对其诊断结果的信任度不足。

为了解决这些问题,未来的研究应更加注重模型的可解释性,开发能够提供可视化决策依据的AI工具。同时,应加强多中心前瞻性验证,以确保AI模型在不同临床环境下的泛化能力。此外,AI技术应与现有的内镜技术(如NBI、LCI和放大内镜)相结合,实现多模态数据的融合,从而提升诊断的准确性和全面性。随着技术的不断进步,AI有望成为辅助内镜诊断的重要工具,推动胃癌早期筛查和治疗的标准化进程。

### 研究的局限性与建议

尽管本研究提供了关于AI在EGC诊断中性能的详尽分析,但仍存在一定的局限性。首先,研究中大部分数据来自回顾性研究,缺乏前瞻性验证,这可能影响模型在实际应用中的可靠性。其次,AI模型的性能评估仍存在一定的异质性,这可能源于数据来源的多样性、模型结构的复杂性以及内镜设备的差异。因此,未来的研究需要更加注重多中心、前瞻性数据的收集和分析,以提高结果的普遍适用性。

此外,AI模型的可解释性仍是一个亟待解决的问题。目前,许多AI模型仍被视为“黑箱”,缺乏对诊断过程的透明化,这可能会影响医生对其诊断结果的信任度。因此,开发能够提供可视化解释的AI模型将是未来研究的重要方向。同时,AI模型的部署和应用仍面临技术挑战,如如何与现有的内镜系统无缝对接、如何在不同医疗机构间保持模型的一致性等。

总的来说,AI在EGC的内镜诊断中展现出巨大的潜力,但其在实际临床中的广泛应用仍需进一步优化。未来的研究应关注模型的动态性能、可解释性以及多中心验证,以推动AI技术从实验研究向临床实践的转化。同时,研究者应更加重视数据的多样性和代表性,避免因样本偏差或数据质量不足而影响结论的可靠性。通过不断改进AI技术,有望实现对胃癌早期诊断的更高效、更准确的辅助,为患者提供更好的治疗机会和生存质量。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号