综述:人工智能在肝癌超声诊断中的作用:现状与未来展望
【字体:
大
中
小
】
时间:2025年09月28日
来源:Gastroenterology & Endoscopy
编辑推荐:
本综述系统探讨了人工智能(AI)技术在肝癌超声诊断中的前沿应用,涵盖B超、超声造影(CEUS)等多种模态,重点分析了AI在良恶性鉴别、肿瘤分型及多任务学习中的卓越性能(如检测小病灶、量化影像特征、减少主观偏差),并指出其临床转化面临数据稀缺、标准化缺失、模型可解释性不足等挑战,为精准医疗时代提供重要洞见。
原发性肝癌(PLC)是全球第六大常见恶性肿瘤和第三大癌症相关死亡原因,其主要亚型包括肝细胞癌(HCC,占75-85%)和肝内胆管癌(ICC)。尽管诊断技术不断进步,HCC患者的五年生存率仍低于20%,早期检测对改善预后至关重要。超声(US)因其无创、易获取和成本效益高,成为PLC筛查和初步诊断的关键工具,但其诊断面临成像特征重叠、操作者依赖性强以及小病灶检测灵敏度有限(对<1 cm肿瘤灵敏度仅46-84%)等挑战。
近年来,人工智能(AI)技术的突破为应对这些局限性提供了新途径。AI模型通过深入分析超声图像特征并整合多模态数据(如电子健康记录、临床参数和生物标志物),显著提高了肝癌信息提取效率和诊断准确性。AI在检测小病灶、量化影像特征和减少主观偏差方面展现出巨大潜力,逐渐改变了超声诊断肝癌的范式。
AI指机器模拟人类认知功能(如推理、学习、规划和创造力)的能力。在医学领域,AI核心包括机器学习(ML)和深度学习(DL)两大范式。ML涉及开发使系统能够从数据中学习并识别模式而无需显式编程的算法,其主要方法包括监督学习(使用标记数据)、无监督学习(发现未标记数据中的隐藏结构)和强化学习(通过连续反馈优化决策)。常见ML算法(如逻辑回归、决策树、随机森林和支持向量机)特别适合分析结构化临床数据(如病理结果或实验室参数),从而促进早期疾病诊断。然而,ML模型的性能在很大程度上取决于特征工程的质量,该过程需要领域专业知识来准确捕获临床相关特征。
DL基于受生物神经系统启发的神经网络,其核心优势在于自动特征学习:DL架构由输入层(接收原始数据)、多个隐藏层(提取分层抽象特征)和输出层(生成预测)组成。这种设计使DL模型能够直接从非结构化数据(如医学图像)中学习复杂表示,大大减少了对手动特征工程的依赖。与传统ML相比,DL擅长处理图像和文本等高维数据,在医学图像分析中表现出卓越性能。
卷积神经网络(CNN)是主要的DL架构,通过卷积核提取局部特征,在超声成像中的病灶检测和分割方面表现出显著效用。U-Net架构以其编码器-解码器结构和跳跃连接为特征,显著提高了分割精度,现被广泛视为生物医学图像分割的金标准。影像组学与DL的集成通过结合定量特征提取和自动模式识别进一步提高了分类准确性。最近,利用自注意力机制捕获长程依赖关系的Transformer架构在医学图像分析中展现出有前景的应用,为多模态诊断协作提供了新视角。
总之,AI方法通过模拟人类认知和自主学习机制,为超声诊断肝癌提供了创新工具。随着大型语言模型(LLM)等新兴技术日益融入医学领域,多模态AI系统正成为新兴趋势。这些系统动态整合影像数据、电子健康记录和基因组信息,以开发肝癌诊断模型。此外,物联网(IoT)的集成进一步扩展了这种AI驱动范式的应用边界:在肝癌管理中,IoT实现医疗设备、传感器和临床系统之间的实时互联数据流,为AI提供更丰富的实时数据支持。尽管模型可解释性、机构间数据变异性和高异质性等挑战依然存在,AI驱动的精准超声诊断已成为不可逆转的趋势。
在AI辅助的肝癌超声诊断中,采用了多种超声模态,包括B超、超声造影(CEUS)、二维剪切波弹性成像(2D-SWE)和内镜超声(EUS)。这些模态各自满足特定临床需求,并适用于特定患者群体,如肝病高风险个体、肝肿瘤患者以及需要精确病灶鉴别的人群。
B超是最基本且应用最广泛的模态,覆盖最广泛的患者人群,包括肝病高风险个体(如肝硬化患者)、PLC患者(例如用于区分HCC与ICC)、HBV感染且血清甲胎蛋白(AFP)阴性的肝局灶性病变(FLLs)患者以及接受肝癌筛查的普通人群。例如,模型使用B超区分肝硬化患者中的HCC与肝硬化实质(PAR),以及区分HBV感染和AFP阴性个体中的HCC与局灶性结节增生(FNH)。
CEUS支持病灶血管灌注的动态评估,主要应用于需要更精确病灶特征分析的人群,包括区分良恶性FLLs、区分不典型HCC与FNH以及评估恶性潜能(例如低级别与高级别)。CEUS模型利用动脉期、门静脉期和延迟期的动态增强模式来提高诊断性能,例如区分HCC与肝转移瘤或分类HCC和转移性肿瘤等病灶类别。
多模态超声融合整合了多种超声模态或临床数据,进一步提高了诊断准确性,特别适用于需要精确PLC亚型分型或复杂肝病灶评估的患者。与表1和表2中呈现的单模态超声应用不同,表3展示了单模态与其他成像技术或临床参数的整合,以应对具有挑战性的诊断场景。例如,结合B超与CEUS显著改善了HCC与肝硬化实质(PAR)的区分。此外,结合B超和2D-SWE的融合模型成功预测了慢性乙型肝炎患者的5年HCC风险,曲线下面积(AUC)达到0.900。特征级(在单个模型做出决策之前组合数据特征)和决策级(多个模型做出个体决策然后组合)融合模型的准确率均高达98.2%。当纳入临床数据(如年龄、AFP、CA19-9)时,模型性能进一步提高。例如,一个整合B超、CEUS和临床数据的模型在区分ICC与HCC方面实现了0.973的AUC,优于放射科医生。
总体而言,超声模态的选择根据病灶类型、患者风险状况和诊断目标量身定制。B超仍然是初始筛查的基石,而CEUS和其他先进模态更适合分析动态和复杂病灶。多模态融合在具有挑战性的病例中特别有价值,例如AFP阴性个体或慢性肝病患者,其中提高诊断准确性至关重要。
AI辅助超声诊断肝癌的主要目标是病灶分类,包括二分类(恶性与良性)和多分类以获取更详细的病灶类型。此外,越来越多地探索多任务学习方法以同时处理多个诊断任务。
良恶性分类广泛应用于各种患者群体,包括肝肿瘤患者(恶性与良性)和FLLs患者。例如,多模态模型USC-ENet在测试集上实现了0.956的AUC用于恶性肿瘤分类,而分析CEUS视频数据的CNN-LSTM模型在恶性肿瘤检测方面达到了0.910的AUC。此外,在识别肝硬化背景下的HCC方面,结合纹理分析和DL的模型在区分HCC区域与PAR方面达到了98.9%的准确率。
多分类旨在同时区分多种病灶类型,为筛查和诊断复杂肝病灶提供重要价值。例如,YOLOv5模型在肝硬化患者中对七种FLL类型(包括HCC、胆管癌[CCA]和囊肿)实现了96.99%的分类准确率。基于B超的ResNet50模型对五种病灶类型(非FLL、囊肿、HCC等)进行分类,准确率为87%。类似地,基于CEUS的模型也展示了五分类能力(FNH、HCC、高血供转移瘤等),准确率为88%。
区分恶性病灶的特定亚型对治疗计划至关重要。例如,基于B超和CEUS的ML模型(如随机森林)可以区分HCC与ICC,AUC为0.971。使用CEUS数据的梯度提升模型(GBM)在区分HCC与转移瘤方面达到83%的准确率,优于常规肝脏影像报告和数据系统(LI-RADS)标准。逻辑回归模型也已应用于区分PLC亚型(HCC、cHCC-CCA、ICC),AUC为0.854。此外,对于HCC患者,整合CEUS和临床数据的模型可以预测病理分级(低级别与高级别),在验证集上AUC为0.849,这可以为选择适当的治疗策略提供宝贵指导。
多任务学习方法日益受到探索。多任务学习是一种方法,其中一个模型学习同时执行多个相关任务,通过跨任务共享信息来提高整体性能。例如,LMC-Net和LMC-VNet模型同时执行病灶检测、良恶性分类和亚型识别,实现了与中级放射科医生相当的性能。这些进展凸显了AI提供集成、一站式诊断解决方案的潜力。
AI在超声诊断肝癌中的技术发展经历了三个关键阶段:传统ML、DL和多模态融合。这一演进反映了从依赖手工特征到自动特征学习,最终到整合多数据模态的转变。
传统ML方法依赖手工特征提取和经典分类器。例如,一个随机森林模型整合了CEUS和临床数据以及21个选定特征,在区分HCC与ICC方面实现了0.971的AUC。支持向量机(SVM)用于区分HCC与肝脓肿,基于96个纹理特征实现了88.4%的准确率。此外,梯度提升(GBM)应用于分类HCC与转移瘤,实现83%的准确率并优于CEUS LI-RADS。然而,这些方法受限于其对专家 crafted 特征的依赖和有限的泛化能力。
DL,特别是CNN,实现了自动特征提取并解决了手动特征工程的局限性。基本CNN架构,如ResNet(例如ResNet18、ResNet50),通过跳跃连接缓解了梯度消失问题。ResNet18在分类三种肝癌亚型方面实现了0.924的AUC。YOLOv5是一种实时目标检测算法,改善了小病灶的检测和分类,在良恶性FLL分类中达到97.0%的准确率。VGG网络(例如VGG19)在四类肝病灶分类中实现91.1%的准确率,而DenseNet121在基于CEUS的五分类中达到88.0%的准确率。更先进的模型整合了时间特征:CNN-LSTM架构从CEUS视频中捕获空间和时间信息,在恶性肿瘤诊断中实现0.910的AUC。BConvLSTM处理超声视频帧并将亚型分类提高到与中级放射科医生相当的水平。迁移学习在数据有限的环境中进一步提高了性能。例如,MobileNetV2结合临床数据在良恶性病灶分类中实现96.3%的准确率,而基于DenseNet201的集成模型在区分HCC与血管瘤方面达到94%的准确率。
多模态融合通过整合超声数据与临床和实验室检查信息,进一步解决了单模态输入的局限性。例如,特征级融合,如USC-ENet模型中实现的,结合了1280维超声特征(通过主成分分析减少)和24个临床变量,实现了0.956的AUC,显著优于单模态模型。类似地,决策级融合结合了来自B超和CEUS的DenseNet和ResNet特征,对HCC的诊断准确率达到98.2%。除了这些方法,跨模态架构还支持整合多样化数据流。例如,FS3DU+A+H四流3D CNN整合了CEUS视频和临床数据,在良恶性分类方面实现了外部验证AUC 0.957。此外,注意力机制(例如USC-ENet中的注意力模块)和自适应融合技术(例如T-AFML中的选择器机制)已显示通过自适应加权不同模态的贡献来进一步增强模型性能。AI核心算法的总结如表4所示。
该领域AI模型的演进具有三个关键趋势:(1) 从静态图像分析向动态视频分析的转变(例如CEUS时间序列分析);(2) 从单任务模型向多任务框架的转变(例如同时进行病灶检测、分割和分类);(3) 从以模型为中心的设计向临床集成解决方案的进展,例如纳入标准化报告系统如LI-RADS。总之,人工智能(AI)算法在肝癌超声诊断中的作用已从一个辅助图像分析工具演变为能够整合多维信息并执行复杂诊断任务的核心驱动技术。未来的发展将继续专注于进一步优化模型轻量化和临床适应性等方面,以加速其临床转化。
严格评估基于超声的AI模型需要评估其泛化能力和临床效用。这需要实施稳健的验证策略,包括细致的数据集划分、建立可靠的参考标准以及考虑数据收集的规模(例如单中心与多中心)。此外,展示模型的性能优势至关重要,可以通过与常规方法、医生性能以及AI辅助性能的评估比较来实现。
验证策略的严谨性是确保结论可靠性和泛化性的基础。(1) 数据集划分。常见策略是内部拆分(将单源数据集划分为训练集、验证集和测试集)、交叉验证(例如5折或10折以减轻随机变异)、外部验证(在独立数据集上评估泛化能力)和前瞻性验证(在真实世界临床工作流程中进行,代表最高证据水平)。(2) 参考标准。建立可靠的参考标准至关重要。组织病理学是肿瘤诊断的参考标准。对于未进行活检的病灶,复合临床诊断(整合影像、实验室数据和临床随访)作为可靠的参考。(3) 数据收集规模。单中心研究提供数据同质性但由于中心特定偏差而风险有限泛化能力。相反,多中心研究通过纳入多样化数据(不同设备、协议、人群)增强稳健性和适用性。例如,一个基于11个日本中心数据训练的VGGNet模型实现了91.1%的肝肿瘤分类准确率,凸显了大规模方法的好处。
性能比较分析对于展示新模型的优势至关重要。当前研究通常通过三种类型的比较来评估模型性能:(1) AI模型与常规方法。例如,DL和多模态融合模型 consistently 优于传统方法。一个结合二维剪切波弹性成像(2D-SWE)、B超图像和临床信息的深度学习模型显著优于传统肝硬度测量(LSM)和临床预后评分。类似地,整合超声和临床数据的USC-Enet模型在恶性肿瘤分类方面展示了0.956的AUC,而单独超声为0.825。(2) AI模型与专家医生。 several AI模型已显示性能相当于或优于经验丰富的临床医生。例如,一个VGGNet模型在肝肿瘤分类中实现89.1%的准确率,显著超越专家放射科医生(67.3%,p<0.05)。在另一项研究中,模型IBC在区分非囊性FLLs方面实现84.7%的准确率,优于经验丰富的医生(76.0%,p<0.01)。(3) AI辅助医生性能。AI辅助已显示显著提高效率,特别是对经验较少的从业者。例如,一个基于ResNet的系统将居民对恶性病灶检测的灵敏度提高到97.0-99.4%。此外,一个多模态模型帮助初级CEUS医生达到专家级性能(p<0.05)。
尽管AI在超声诊断肝癌方面具有广阔潜力,但若干关键挑战阻碍了其临床转化。
- ?
主要瓶颈是缺乏高质量、带注释的数据集。手动注释耗时(10-30分钟/图像),且各中心标签标准不一引入偏差。超过60%的现有研究依赖回顾性、单中心数据集(通常<1000例),稀有亚型代表性不足。此外,数据隐私法规限制数据共享,从而限制泛化能力。
策略:建立标准化、多中心数据库,统一影像和注释协议。利用半监督和主动学习方法有效利用大量未注释数据。采用联邦学习框架实现隐私保护的协作训练。
- ?
数据采集(如设备、设置)、分割方法(手动与自动,变异约15-20%)、预处理(如图像大小不一)以及特征提取或选择(如不同特征子集)的异质性严重损害了AI模型的可重复性和可比性。
策略:制定全面标准化框架,定义最低图像质量并标准化预处理和分割协议,同时统一特征提取和选择工作流。利用验证工具(如影像体模)和标准化方法(如Min-Max缩放、ComBat协调)。开发端到端自动化流程以减少对手动过程的依赖。
- ?
复杂模型(如DL)的不透明决策过程削弱了临床医生信任,特别是当预测与临床或病理证据矛盾时。现有可视化工具(如CAM、Grad-CAM)通常突出非临床相关区域,从而提供有限解释价值。此外,错位或冲突输出的责任在法律和伦理上模糊。
策略:通过以临床可解释术语提供预测,增强AI解释与临床推理的一致性。将先验临床知识纳入模型设计。采用人在环注释框架提高临床医生对模型行为的理解并培养信任。
- ?
超声的固有局限性(如缺乏详细血流动力学或分子数据) necessitates 多模态融合。当前策略包括:特征级融合(对模态兼容性敏感)、决策级融合(灵活但跨模态交互有限)和自适应融合(动态加权,提高性能但增加复杂性)。
未来方向:整合互补模态(如超声、血清生物标志物如AFP/CA19-9、基因组学、EHRs)以实现整体“影像-病理-临床”框架。探索LLM和多模态LLM用于自动化、跨模态系统。
- ?
持续的知识差距和不发达的转化途径阻碍临床采用。许多临床医生可能缺乏足够的AI素养,而开发人员可能 overlook 临床细微差别(如实时扫描动态)。额外障碍包括临床效用验证不足以及AI驱动决策的责任归属模糊。
策略:进行前瞻性、多中心随机对照试验以验证临床效用和影响(如诊断效率、早期检测)。建立跨学科团队,包括临床医生、数据科学家和工程师,以桥接领域专业知识。将AI基础知识纳入医学教育以装备未来医生。
本研究提供了人工智能在超声诊断肝癌中应用的系统综述。它以临床为重点,突出了临床应用中的关键挑战,如数据稀缺、标准化和可解释性,同时提出了弥合技术创新与临床实践之间差距的未来方向。此外,该研究对新兴技术(包括多任务学习、动态视频分析和大型语言模型)进行了前瞻性分析,为未来研究提供了宝贵见解。然而,该研究有几个局限性。其结论基于对已发表文献的综述而非对原始数据的重新分析,使研究结果易受发表偏倚影响。此外,由于纳入研究在数据集、模型架构和评估指标方面存在显著变异,该综述未进行定量分析,限制了模型间精确比较的能力。
AI在增强超声诊断肝癌方面具有 substantial 潜力,提高检测准确性并提供宝贵的无创诊断模态。尽管早期发现令人鼓舞,但若干关键挑战仍然存在——包括数据稀缺、技术标准化缺失、有限可解释性、多模态整合不足以及临床医生与技术专家之间的持续差距。为了充分发挥AI在该领域的临床潜力,未来的努力必须优先进行大规模、前瞻性、多中心验证研究以及模型的持续优化,以确保对多样化人群的泛化能力。有效应对这些挑战对于实现AI技术成功转化为常规临床实践至关重要。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号