基于CT动脉期2.5D深度学习-多示例学习模型预测肝细胞癌早期复发及生物学意义探究

【字体: 时间:2025年09月18日 来源:Journal of Legal Medicine 0.8

编辑推荐:

  本综述系统评估了基于CT动脉期图像的2.5D深度学习-多示例学习(2.5D DL-MIL)模型在预测肝细胞癌(HCC)早期复发(ER)中的优势,证实该模型在验证集中曲线下面积(AUC=0.840)显著优于传统影像组学(Radiomics)和临床模型,其MIL特征与微血管侵犯(MVI)分级及Ki-67表达显著相关,为HCC术后精准随访及个体化治疗提供了具有高解释性的影像学工具。

  

研究背景与目的

肝细胞癌(Hepatocellular Carcinoma, HCC)是全球第六大常见恶性肿瘤和第三大癌症致死原因,其中75%–85%为HCC患者。术后复发是影响患者预后的关键因素,其机制与肿瘤侵袭性(如微血管侵犯(MVI)、病理分级)及增殖活性(如Ki-67高表达)密切相关。尽管巴塞罗那临床肝癌(BCLC)分期系统和血清肿瘤标志物检测为HCC风险分层提供了重要信息,但其对术后复发风险的预测性能有限,部分原因是未能充分捕捉肿瘤异质性。现有大多数HCC复发预测模型未能整合先进影像技术中包含的生物学信息,导致模型可解释性不足。因此,开发更精确、可解释的HCC术后早期复发预测模型对优化临床决策和制定个体化随访策略至关重要。

传统影像组学通过手工提取医学图像中的纹理、形状等特征构建预测模型,但其性能常受限于主观性和手工设计特征的局限性。深度学习(Deep Learning, DL)技术通过从图像中自动学习多层次特征,在医学图像分析中展现出显著优势。其中,2.5D深度学习模型整合肿瘤最大横截面图像及其相邻多层切片信息,相较于传统2D模型能更有效地捕捉肿瘤三维空间特征。此外,多示例学习(Multi-Instance Learning, MIL)可通过聚合多个切片的预测结果有效表征肿瘤异质性。然而,基于2.5D深度学习-多示例学习(2.5D DL-MIL)模型预测HCC早期复发的研究尚有限,且所提取图像特征与肿瘤生物学行为之间的相关性需进一步探索。

本研究旨在利用计算机断层扫描(Computed Tomography, CT)动脉期图像开发2.5D DL-MIL模型,并比较其与传统影像组学(基于手工勾画提取的影像组学特征)和临床模型(基于年龄、性别、甲胎蛋白(AFP)等临床指标)对HCC术后早期复发的预测性能。采用沙普利加和解释(SHAP)分析模型决策机制,并探讨MIL特征与微血管侵犯(MVI)、Ki-67表达及病理分级之间的相关性,为模型临床应用提供生物学证据。

材料与方法

本研究经右江民族医学院附属医院伦理委员会批准(批准号:YYFY-LL-2024-038),遵循《赫尔辛基宣言》原则进行。鉴于其为回顾性研究且所有参与者数据已匿名化,伦理委员会豁免获取研究参与者书面知情同意的要求。

研究对象

这项回顾性研究纳入了2019年1月至2024年5月期间在右江民族医学院附属医院接受治疗的患者。经系统筛选后,共有191例HCC患者符合纳入标准。根据术后随访结果,这些患者被分为早期复发(ER, n=79)和非早期复发(NER, n=112)两组。所有患者按7:3的比例随机分为训练集(n=133)和验证集(n=58)。

纳入标准:①接受根治性切除术且经术后病理证实为HCC,具有详细临床数据和随访信息;②术前一周内完成CT扫描及相关实验室检查。排除标准:①CT动脉期图像存在伪影;②既往接受过放疗、化疗、介入治疗或其他抗肿瘤治疗。

HCC早期复发的定义

在HCC术后随访中,肿瘤复发定义为通过超声、CT或MRI等影像技术发现肝脏或肝外新发肿瘤病灶。所有病例的肿瘤复发诊断均由一名肝胆外科医生和一名放射科医生评估,双方仅分析指定的临床和影像数据,不知晓其他非必要信息。根据随访结果,将术后两年内发生肿瘤复发的病例归入ER组,而术后两年未复发的病例归入NER组。

临床特征

本研究对所有参与者实施了严格的数据收集方案,所有相关实验室检查和CT扫描均在术前一周内完成。本研究考虑的临床指标分为三大类:第一类为人口统计学基线指标,如年龄、性别和体重指数(BMI);第二类包括病史相关指标,如饮酒史和乙型肝炎表面抗原(HBsAg)检测结果;第三类为血清学指标,涵盖四个关键生化参数:甲胎蛋白(AFP)、血清白蛋白(ALB)、天冬氨酸转氨酶(AST)和丙氨酸转氨酶(ALT)。

病理学指标

本研究纳入了三个与HCC术后复发密切相关的病理学指标:MVI、Ki-67和病理分级,以增强结果的可解释性。所有病理学指标均由认证病理学家按照既定程序和指南进行诊断。

MVI定义为显微镜下观察到内皮细胞衬里的管腔内存在癌巢。分级标准如下:M0表示未检测到MVI;M1(低风险组)指≤5个MVI病灶位于肿瘤附近肝组织(距肿瘤距离≤1 cm);M2(高风险组)分为两个亚型:M2a为肿瘤附近>5个MVI病灶,M2b为远处肝组织存在MVI(距离>1 cm)。

Ki-67表达按常规病理流程检测,组织样本经苏木精和伊红固定,石蜡包埋,切片厚度3–5 μm,然后脱蜡水化。采用小鼠抗人Ki-67单克隆抗体进行免疫组化染色。Ki-67阳性细胞细胞核内呈现棕黄色颗粒。通过随机选择每张切片五个高倍视野进行分析评估表达水平。每个视野计数100个肿瘤细胞中Ki-67阳性细胞数,计算阳性细胞占总肿瘤细胞的百分比,取平均值作为Ki-67表达指数。

HCC病理分级遵循Edmondson-Steiner分级系统:Ⅰ级肿瘤细胞类似正常肝细胞,排列成细梁状;Ⅱ级细胞体积增大,核质比增高,核染色加深伴一定异型性;Ⅲ级细胞分化差,细胞体积进一步增大,核质比增高,异型性显著,常见核分裂象;Ⅳ级分化最差,胞浆稀少,核深染,细胞形态不规则,粘附性差,排列疏松。

CT扫描方案

CT扫描范围从膈顶至肝下缘,各设备扫描参数见表1。增强扫描采用双筒高压注射器以3.5 mL/s的速率注射碘狄醇(Uvison 370),剂量按1.5 mL/kg计算,随后以相同速率注入40 mL生理盐水冲洗。在降主动脉定义感兴趣区(ROI),采用阈值触发扫描技术。ROI的CT值达到预设阈值后8秒启动动脉期扫描。所有动脉期增强CT图像以DICOM格式导出,随后转换为NIfTI格式进行进一步图像分析。

CT图像预处理与ROI放置

为减轻不同设备和扫描参数对结果的影响,应用了以下标准化程序:首先,将所有CT图像数据的体素间距标准化为1 mm × 1 mm × 1 mm;其次,应用开窗技术标准化图像的窗宽和窗位(窗宽:259 HU,窗位:40 HU)。CT动脉期图像的肿瘤分割由两位具有5年以上腹部影像诊断经验的放射科医生使用ITK-SNAP 3.8.0软件完成。分割过程中,放射科医生不知晓患者的复发状态,逐层手动勾画肿瘤轮廓。

MIL特征提取方法

2.5D数据获取

本研究提出了一种2.5D数据生成方法,利用CT动脉期图像数据。中心切片代表ROI的最大横截面,相邻切片按层间距±1、±2、±4、±7和±9选择,从而为每位患者生成包含11个CT切片的数据集。数据使用OnekeyAI平台上的OKT-crop_max_roi工具进行标准化和裁剪。

切片级模型训练

在切片级模型训练中,采用三种DL架构——ResNet18、ResNet101和DenseNet121——对2.5D图像切片进行训练。使用准确率、曲线下面积(AUC)、敏感性和特异性等指标评估模型性能,具体训练方案见补充材料1A。

多示例学习特征提取

如补充材料1B所示,本研究采用整合预测似然直方图(PLH)和词袋(BoW)方法的MIL框架,结合词频-逆文档频率(TF-IDF)加权策略聚合切片预测标签,最终构建MIL特征。

特征选择与模型构建

2.5D DL-MIL:为降低过拟合风险,对MIL特征应用Z-score标准化。采用t检验或Mann–Whitney U检验识别显著特征(P < 0.05),并选择性去除Pearson相关系数大于0.9的冗余特征以减轻共线性。在10折交叉验证框架下,利用最小绝对收缩与选择算子(Lasso)回归优化正则化参数λ并进行特征选择。最后,实施ExtraTrees算法构建预测模型,同时采用合成少数类过采样技术(SMOTE)修正样本不平衡问题。结合网格搜索进行5折交叉验证的超参数调优以确保模型稳健性。

影像组学:通过勾画手动提取的影像组学特征作为基线,采用与2.5D DL-MIL模型类似的建模方法评估传统影像组学方法的预测性能,从而为2.5D DL-MIL与传统影像组学模型的比较分析提供参考。详细建模过程及结果见补充材料2A,影像组学特征类型见图S1a。

临床:采用Shapiro–Wilk检验评估临床特征的正态性,并根据数据类型应用t检验、Mann–Whitney U检验或χ2检验识别显著临床特征(P < 0.05)。采用2.5D DL-MIL模型的机器学习算法,利用所选临床特征构建预测模型。

统计分析

使用MedCalc软件进行样本量估计。检验效能设为80%,双侧显著性水平设为0.05,AUC的备择假设为0.800(零假设:0.500)。ER和NER组样本按1:1分配,训练集和验证集所需最小样本量均为26例(13例ER和13例NER样本)。训练集共纳入133例(56例ER,77例NER),验证集58例(23例ER,35例NER)。该样本量允许以80%的效能有效检测AUC从0.500到≥0.800的差异。

研究在Python 3.7.12环境中进行数据处理和模型构建,使用Statsmodels 0.13.2进行统计分析,PyRadiomics 3.0.1进行影像组学特征提取,Scikit-learn 1.0.2进行机器学习算法,PyTorch 1.11.0进行DL模型开发,CUDA 11.3.1与cuDNN 8.2.1进行加速优化。连续变量的组间比较根据数据正态性采用t检验或Mann–Whitney U检验,分类变量采用卡方检验分析。使用受试者工作特征(ROC)曲线评估模型诊断性能,通过决策曲线分析(DCA)验证临床适用性,采用Delong检验进行模型间AUC比较。

针对最优预测模型,使用沙普利加和解释(SHAP)方法量化各特征对模型决策过程的贡献。同时,采用R软件(版本4.2.2)进行Pearson相关分析,探讨所选MIL特征与HCC病理指标之间的关系。所有统计分析以P < 0.05为具有统计学意义。

结果

基线特征

患者基线临床特征见表2。训练集分析显示,AFP水平(P = 0.012)和性别(P = 0.016)在ER和NER组间存在显著差异,而其他临床特征的差异无统计学意义(P > 0.05)。因此,利用AFP和性别构建临床模型。

关于病理特征,191例HCC患者中,Ki-67表达指数平均为0.23(标准差=0.21),MVI发生率为35.08%(67/191),其中M1 37例,M2 30例。病理分级分布如下:Edmondson-Steiner Ⅰ级13例(6.81%),Ⅱ级82例(42.93%),Ⅲ级73例(38.22%),Ⅳ级23例(12.04%)。

切片级预测结果

在ResNet18、ResNet101和DenseNet121模型的比较研究中,性能评估结果表明ResNet18在验证集上表现出明显优势。ResNet18的AUC为0.716,高于ResNet101(0.588)和DenseNet121(0.675)。此外,ResNet18在验证集上表现出稳定的敏感性(0.688)和特异性(0.712),因此将其作为后续MIL应用开发的首选模型。图3c和d展示了使用梯度加权类激活映射(Grad-CAM)技术对最终卷积层激活与类别预测相关的可视化,直观解释了模型的决策过程。

不同模型的预测性能

本研究采用MIL聚合了13个PLH特征和13个BoW特征。经特征选择、特征分布分析和Lasso回归后,最终选择六个特征(BoW_01、BoW_02、BoW_03、BoW_09、BoW_10和BoW_16)构建预测模型。性能评估显示,2.5D DL-MIL模型在验证集的准确率、AUC、敏感性和特异性分别为0.741、0.840、0.870和0.657。

影像组学特征经过组内相关系数(ICC)分析、t检验或Mann–Whitney U检验、Pearson相关分析和Lasso回归降维,最终选择八个特征构建影像组学模型。该模型在验证集的准确率、AUC、敏感性和特异性分别为0.672、0.678、0.696和0.657。

基于APF和性别的临床模型预测性能欠佳,在验证数据集中的准确率、AUC、敏感性和特异性分别为0.517、0.598、0.478和0.543。

模型比较与SHAP分析

各模型的ROC曲线如图5a和b所示,结果表明2.5D DL-MIL模型展现出最优的整体预测性能。验证集Delong检验结果显示,2.5D DL-MIL模型的AUC(0.840)显著优于影像组学模型(AUC = 0.678, P = 0.047)和临床模型(AUC = 0.598, P = 0.009)。DCA曲线进一步证实2.5D DL-MIL模型的决策曲线在训练集和验证集中均显著高于参考线,表明其具有显著的临床净收益,且该收益优于其他模型。针对性能最优的2.5D DL-MIL模型,进行SHAP值分析评估各MIL特征在模型中的贡献和影响方向。结果显示,BoW_01、BoW_02和BoW_03对HCC的ER预测产生负向影响,而BoW_09、BoW_10和BoW_1产生正向影响,其中BoW_02对预测模型的贡献最大。以样本149为例,瀑布图和力图可视化表明,BoW_01、BoW_02和BoW_10在预测过程中发挥负向调节作用,而BoW_03、BoW_09和BoW_1呈现正向调节。该样本的最终预测概率为0.495,表明ER可能性低。

MIL特征与病理特征的相关性

为进一步阐明最优2.5D DL-MIL模型的潜在机制,全面分析了所选MIL特征与MVI、Ki-67表达及HCC病理分级之间的相关性。相关分析显示,BoW_01(r = ?0.22, P = 0.0021)和BoW_02(r = ?0.20, P = 0.0066)与MVI分级呈显著负相关,而BoW_09(r = 0.22, P = 0.0022)和BoW_1(r = 0.30, P < 0.0001)与MVI分级呈显著正相关。关于Ki-67表达,BoW_02与Ki-67表达指数呈显著负相关(r = ?0.22, P = 0.0026),而BoW_09(r = 0.24, P = 0.0007)和BoW_1(r = 0.19, P = 0.0076)呈显著正相关。此外,BoW_01、BoW_02、BoW_03、BoW_09、BoW_10和BoW_1与HCC病理分级无统计学显著相关(所有P > 0.05)。

讨论

在当前预测HCC复发的DL模型中,2D CNN虽高效但易丢失肿瘤三维空间关联信息;3D CNN能捕捉完整空间特征但受限于高计算成本。2.5D DL精准解决了上述研究中“空间完整性-异质性表征”协作的短板。本研究开发了基于CT的2.5D DL-MIL模型、影像组学模型和临床模型,比较了它们对HCC术后早期复发的预测性能,并评估了所选MIL特征与病理参数的相关性。结果表明,2.5D DL-MIL模型表现出优越的预测性能,且某些MIL特征与HCC的MVI和Ki-67表达显著相关。这些发现凸显了巨大的创新性和临床相关性。

2.5D DL-MIL模型在预测HCC早期复发方面展现出明显优势,验证集AUC达0.840,显著优于影像组学模型(AUC = 0.678)和临床模型(AUC = 0.598)。决策曲线分析进一步证实了2.5D DL-MIL模型在临床适用性方面的优越性。这些优势可能源于几个因素:首先,在数据特征提取阶段,2.5D DL技术整合了肿瘤最大横截面周围的多平面切片信息,相比忽略切片间空间信息的传统2D模型,能更全面地捕捉肿瘤三维空间特征;其次,MIL框架通过聚合多个图像切片的预测结果克服了单切片信息的局限性,捕捉了肿瘤整体的异质性,缓解了局部特征的片面性;在模型构建中,2.5D DL-MIL模型采用先进DL架构(最终选择ResNet18)进行切片级训练,结合PLH和BoW方法进行特征融合,实现自动学习复杂有效特征表征。传统影像组学模型依赖手工勾画进行特征提取,受人为因素影响;尽管基线临床特征在训练集中显示AFP和性别在HCC的ER和NER组间存在显著差异,但临床模型基于有限临床指标构建,未能充分捕捉肿瘤的异质性和复杂性;此外,本研究2.5D深度学习模型的AUC与3D卷积神经网络模型(AUC=0.846)相当,这可能与模型有效捕捉肿瘤深层特征和空间信息有关。

SHAP分析是阐明2.5D DL-MIL模型决策机制的关键方法。本研究结果显示,不同MIL特征在模型决策中扮演不同角色。在影像特征与肿瘤复发风险相关性方面,负向影响特征可能代表与肿瘤相对良性生物学行为相关的影像特征,如较高ADC值和完整包膜;反之,正向影响特征可能反映肿瘤较高侵袭性或复发倾向的影像特征,如较大肿瘤尺寸和不光滑肿瘤边缘。瀑布图和力图的视觉分析可直观识别各特征在预测单个样本中的贡献和方向,为临床医生解释模型预测提供有力支持,既增强模型可解释性又提升临床可信度。

MIL特征与病理指标的相关性为了解2.5D DL-MIL模型的生物学机制提供了宝贵见解。既往研究已证实,MVI是评估肿瘤侵袭性和转移潜力的关键病理标志物,而Ki-67表达水平与肿瘤细胞增殖活性密切相关。此外,HCC患者较高的MVI分级和Ki-67表达水平与术后复发风险显著增加相关。本研究中MIL特征与MVI分级及Ki-67表达水平的关联表明,低BoW_02值和高BoW_09、BoW_1值的HCC具有更高侵袭性和活跃肿瘤细胞增殖,这些患者更易发生短期复发,这与SHAP分析中这些特征对模型的影响方向一致。此外,BoW_01与MVI分级及Ki-67表达水平的相关性表明,BoW_01反映了HCC的侵袭性但未表征肿瘤细胞增殖活性。上述MIL特征与病理指标的相关性结果提示,2.5D DL-MIL模型有效捕捉了与HCC术后复发相关的影像信息。模型提取的特征可能间接影像中反映肿瘤分子生物学过程特性,从而与病理指标建立内在联系。此外,本研究发现Grad-CAM可视化显示DL模型可自动关注血供丰富肿瘤区域及肿瘤与正常肝组织交界区域,这些区域与HCC MVI等病理发生部位一致。尽管大部分显著相关的BoW特征显示弱相关,但它们仍在术前无创预测HCC早期复发高风险人群方面展现出良好临床价值。

本研究的2.5D DL-MIL模型为HCC术后个体化治疗和随访提供了精确指导。对于模型提示高复发风险的HCC患者,可缩短随访间隔并考虑术后辅助治疗(如术后经导管动脉化疗栓塞、靶向药物疗法等);对低风险患者,可适当延长随访间隔,减少不必要的医疗费用和辐射暴露。然而,本研究存在若干局限性:首先,回顾性研究易存在潜在选择偏倚,可能影响研究结果的普适性;其次,研究样本来自单中心且样本量相对较小,需进一步验证模型泛化能力。未来计划在中国三家医疗中心开展多中心大样本前瞻性研究,并进行有效外部数据验证,以更精准评估2.5D DL-MIL模型的性能及其临床应用价值;最后,本研究证实了MIL特征与病理指标(MVI、Ki-67)的相关性,但尚未探索其与肿瘤分子机制的关联。未来将通过影像基因组学关联分析阐明影像特征背后的分子机制,并在多中心队列中进一步验证影像-基因组学关联的稳定性。

结论

本研究开发的2.5D DL-MIL模型在预测HCC早期复发方面展现出显著优势,而SHAP分析及相关性研究为模型决策机制及其生物学意义提供了关键见解。尽管本研究存在一定局限性,但它为未来研究和临床应用奠定了坚实基础,并有望推动放射学在HCC精准诊疗领域的进步。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号