深度学习在非增强胸部CT图像中对磨玻璃结节进行三分类的应用:基于CNN架构的多中心对比研究
《European Journal of Radiology Open》:Deep learning for Three‐Class Classification of ground-glass nodules on non-enhanced chest CT: A multicenter comparative study of CNN architectures
【字体:
大
中
小
】
时间:2025年10月09日
来源:European Journal of Radiology Open 2.9
编辑推荐:
深度学习模型Res2Net 3D在四中心前瞻性研究中显著优于其他3D CNN模型,其AUC值达0.91(AAH/AIS)、0.88(MIA)和0.92(IA),F1-score达0.929(IA)。临床特征融合(10项)后模型性能稳定,准确率保持83%-84%。本研究验证了3D CNN在非对比CT影像中区分GGN亚型的可行性,为AI辅助肺结节诊断提供新范式。
肺癌是全球范围内最常见的癌症诊断之一,也是癌症相关死亡的主要原因之一。随着高分辨率胸部CT(Computed Tomography)的广泛应用,越来越多的肺部结节被发现,其中以磨玻璃结节(Ground-Glass Nodules, GGNs)最为常见。GGNs可能提示多种病理状况,包括非典型腺瘤样增生(Atypical Adenomatous Hyperplasia, AAH)、原位腺癌(Adenocarcinoma in Situ, AIS)、微创腺癌(Minimally Invasive Adenocarcinoma, MIA)以及侵袭性腺癌(Invasive Adenocarcinoma, IA)。根据世界卫生组织(WHO)2021年的分类标准,AAH和AIS被归类为腺瘤样前病变,而MIA和IA则属于腺癌。其中,纯GGNs(pGGNs)和部分实性结节是两种主要类型,大多数pGGNs被归为AAH、AIS或MIA。对于AIS和MIA,10年无病生存率均达到100%,且较少发生淋巴结转移或远处转移。相比之下,IA的5年无病生存率约为79%。因此,评估肺结节的侵袭性对于选择合适的临床决策至关重要。
近年来,深度学习技术,尤其是卷积神经网络(Convolutional Neural Networks, CNNs),在医学影像的自动化分析中展现出巨大的潜力。CNN在肺结节分类、检测以及预测其侵袭性方面已被广泛研究和应用。已有研究表明,三维(3D)CNN在评估GGNs侵袭性方面具有显著优势。例如,Zhao等人的研究显示,3D DenseSharp网络和3D DenseNet在GGNs分类任务中的准确率分别为64.1%和59.4%,明显优于传统的2D DenseNet模型。Ni等人利用一种名为Attention-v1的3D CNN模型,实现了85.2%的准确率,超过了经验丰富的放射科医生的80%。Yu等人则采用3D多任务学习方法,实现了二分类任务(AAH/AIS/MIA vs IA)中87.42%的准确率,以及三分类任务中64.9%的准确率。然而,这些研究在不同3D CNN模型之间的比较仍然有限,缺乏系统性分析。
为了填补这一研究空白,本研究开发、验证并比较了四种不同的3D CNN模型,以区分胸部非增强CT扫描中的GGNs,并将其分类为AAH/AIS、MIA或IA。研究团队从四家医院的回顾性数据中收集了4284名接受手术切除并经病理确诊的患者,这些患者在2015年1月至2023年12月期间接受治疗。所有GGNs被随机分为训练集(3083例,占72%)和验证集(1277例,占28%)。研究中使用的模型包括Res2Net 3D、DenseNet3D、ResNet50 3D和Vision Transformer 3D(ViT 3D)。此外,研究团队还开发了Res2Net 3D的变体模型,这些模型整合了临床和CT特征,如Res2Net 3D_w2(性别、年龄)、Res2Net 3D_w6(加入结节大小、位置和吸烟史)以及Res2Net 3D_w10(性别、年龄、位置、CT衰减值的均值、最大值和标准差、结节体积、体积比、左右肺体积比,以及整个肺部的最大CT值)。模型的性能通过准确率、召回率、精确度、F1分数和受试者工作特征曲线下面积(AUC)进行评估。
研究结果显示,Res2Net 3D在所有模型中表现最佳,其AUC分别为0.91(用于区分AAH/AIS)、0.88(用于区分MIA)和0.92(用于区分IA)。其F1分数分别为0.416、0.500和0.929。所有Res2Net变体模型在准确率方面均达到0.83–0.84之间。这些结果表明,Res2Net 3D在识别IA方面具有显著优势,而其他模型的性能则相对较低。此外,研究团队通过统一数据预处理方法,包括标准化窗口宽度和高度(-1200至600 Hounsfield单位)和空间分辨率(0.8毫米在x、y和z方向),以减少影像学差异。在数据增强方面,采用了随机偏移块、随机翻转、随机缩放(0.8–1.25倍)以及高斯噪声等方法,以提高模型的泛化能力。
在统计分析中,研究团队对训练集和验证集的临床特征和CT扫描结果进行了总结。连续变量采用均值±标准差进行描述,而分类变量则使用频率表示。对于不同组之间的比较,采用了卡方检验、Fisher精确检验、Mann-Whitney U检验和Kruskal-Wallis H检验等方法。结果表明,AAH/AIS、MIA和IA组在性别、平均年龄、吸烟状态、肺气肿、间质性肺病(ILD)等特征上存在显著差异,而在手术状态、糖尿病、肝炎或肝硬化、支气管扩张钙化、晕征或反晕征等特征上则无显著差异。这说明这些特征在区分不同类型的GGNs中具有重要价值,而其他特征可能对诊断影响较小。
在诊断性能方面,Res2Net 3D在验证集中的准确率为0.847,显著优于其他3D CNN模型,如DenseSharp 3D(0.843)、ResNet50 3D(0.839)和ViT 3D(0.818)。尽管这些模型的总体准确率差异不大,但其在关键诊断指标上的表现差异较大。Res2Net 3D在IA分类任务中表现出最高的F1分数(0.929)和精确度(0.933),这表明其在减少漏诊和不必要的手术方面具有更大的优势。此外,研究团队还开发了Res2Net 3D的变体模型,这些模型在整合不同数量的临床和CT特征后,其诊断性能基本保持稳定,准确率在0.83–0.84之间。这些结果表明,虽然加入临床特征可以提升模型的诊断能力,但其对最终分类结果的影响有限。
研究还通过统一曼弗雷德-阿普里尔投影(Uniform Manifold Approximation and Projection, UMAP)技术对模型提取的三维潜在特征进行了可视化分析,以进一步理解模型在不同类别中的表现。结果表明,Res2Net 3D模型能够有效地捕捉GGNs的微结构异质性,如细微的实性成分分布、界面不规则性以及血管汇聚模式,这些特征可能比传统的临床参数更具鉴别力。此外,研究团队还通过热图(Heatmap)和Grad-CAM技术,展示了模型在识别GGNs侵袭性方面的关注区域,进一步验证了其在临床应用中的有效性。
尽管研究取得了一定成果,但也存在一些局限性。首先,由于是回顾性研究,数据可能受到选择偏倚的影响,例如纳入标准的差异、不同机构的诊断实践不一致以及部分记录缺失等问题。这些问题可能影响研究结果的普遍适用性。其次,不同机构使用的CT扫描设备和参数存在差异,如切片厚度、重建算法、管电压等,这些因素可能导致CT衰减值的不一致性,进而影响深度学习模型的特征提取和分类性能。因此,未来的研究应考虑采用数据标准化和影像学参数统一的方法,以减少不同设备之间的差异。最后,研究样本中AAH/AIS和MIA病例的数量较少,导致三分类任务中存在类别不平衡问题。为此,研究团队采用了类别重采样技术,如AAH/AIS进行5倍重采样,MIA进行4倍重采样,以减少类别间的差异并提高模型的稳定性。
综上所述,本研究通过开发和验证多种3D CNN模型,探索了在非增强胸部CT扫描中区分GGNs亚型的有效方法。研究结果表明,Res2Net 3D模型在准确性和分类性能方面表现突出,尤其在识别IA方面具有显著优势。同时,通过整合临床和CT特征,研究团队构建了多个变体模型,这些模型在不同特征数量下的诊断性能保持稳定,但并未显著优于纯影像学模型。这提示我们,3D CNN模型可能已经能够有效捕捉GGNs的生物特征,从而使得临床参数在某些情况下变得相对冗余。此外,研究还强调了影像学特征在区分GGNs亚型中的重要性,以及未来在数据标准化和类别平衡方面需要进一步优化。本研究为临床提供了一种非侵入性、定量化的技术手段,有助于提高GGNs的诊断准确率,并为制定最合适的治疗策略提供支持。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号