放大倍数、图像类型和数量对卷积神经网络性能的影响:通过淋巴结细胞学区分犬大型细胞淋巴瘤与非淋巴瘤
《Veterinary Clinical Pathology》:Impact of Magnification, Image Type, and Number on Convolutional Neural Network Performance in Differentiating Canine Large Cell Lymphoma From Non-Lymphoma via Lymph Node Cytology
【字体:
大
中
小
】
时间:2025年09月24日
来源:Veterinary Clinical Pathology 1.1
编辑推荐:
犬类大型细胞淋巴瘤与非淋巴瘤细胞学样本的卷积神经网络分类研究。通过300例样本训练模型,评估200×、500×、1000×三种放大倍数、彩色与16灰度图像类型及50-300张/类样本数量对分类性能的影响。结果显示,1000×图像在两种颜色模式下的准确率均达95.8%-96.67%,ROC曲线下面积0.994-0.997,且每类150张样本时性能达到平台期。研究表明高倍率图像和足够样本量是模型优化关键。
本研究旨在探讨人工智能技术在犬类淋巴结细胞学图像分类中的应用潜力。通过对300张细胞学图像进行分析,评估了放大倍数、图像类型(彩色与灰度)以及图像数量对卷积神经网络(CNN)性能的影响,特别是在区分大细胞淋巴瘤(LCL)与非淋巴瘤(NL)方面。该研究为未来在兽医细胞病理学领域开展人工智能研究提供了重要的参考依据。
### 一、研究背景与意义
近年来,人工智能系统在医学领域取得了显著进展,广泛应用于临床诊断和科研分析。这些进步得益于计算能力的提升、数据存储成本的降低以及AI模型精度和可解释性的增强。在病理学中,AI技术的应用尤为广泛,尤其是在组织病理学、血液病理学和细胞病理学等领域。其中,细胞病理学作为最早引入AI技术的病理学分支,其在识别病变细胞、判断细胞学特征、诊断肿瘤等方面表现出色。然而,由于细胞学样本存在细胞密度不均、细胞形态被血液干扰以及样本厚度不一等问题,使得AI在细胞病理学中的应用面临一定挑战。
为了提高AI在细胞学图像识别中的准确性,本研究选取了300张符合标准的细胞学图像,分别来自LCL和NL两类样本。通过对这些图像进行不同放大倍数和图像类型的训练与测试,评估了AI模型在识别犬类淋巴瘤方面的表现。研究发现,1000倍油浸放大倍数的图像在分类效果上表现最佳,无论是彩色图像还是灰度图像,其在LCL和NL分类中的准确率分别达到了95.8%和96.67%。此外,图像数量对模型性能也有显著影响,当图像数量达到150张时,模型的准确率、ROC面积和F值均达到了较高的水平,这表明在进行初步AI研究时,每类样本至少需要150张图像以确保模型的有效性。
### 二、研究方法与实验设计
本研究基于回顾性分析,涵盖了2018年至2023年间在弗吉尼亚-马里兰兽医学院接受淋巴结穿刺的500只犬。研究对象需满足以下条件:无淋巴瘤病史、细胞密度适中或较高、细胞保存状态良好。所有样本均通过两名具有认证的兽医临床病理学家进行诊断确认,并将样本分为LCL和NL两大类,其中LCL样本共150例,NL样本共150例。对于LCL样本,细胞大小需超过中性粒细胞,而NL样本则包括反应性淋巴样增生、反应性淋巴样增生伴淋巴结炎、淋巴结炎和无显著细胞学特征的淋巴结等。
为了确保模型的鲁棒性,研究采用了图像增强技术,如180度旋转,以增加数据集的多样性。此外,研究还采用了不同的图像组合方式,包括单一放大倍数(200×、500×、1000×)以及多种放大倍数的组合(如200×+500×、200×+1000×、500×+1000×、200×+500×+1000×),以评估不同图像配置对模型性能的影响。
在模型构建过程中,研究团队使用了WekaDeeplearning4j软件包,基于Inception-v3模型进行构建。该模型的超参数设置是固定的,包括20个训练周期、无早停机制、8个批量大小、使用ImageNet预训练模型、Xavier权重初始化方法、0.2的Dropout率等。通过ImageJ软件对图像进行预处理,包括对比度增强、像素饱和度调整以及灰度转换等操作,以确保图像质量的一致性。
研究团队使用了多种评估指标,包括准确率、ROC面积、F值、精确率、召回率、Matthews相关系数、Kappa统计量、均方误差、相对绝对误差等,以全面衡量模型的性能。此外,为了进一步评估图像数量对模型性能的影响,研究团队在每类样本中逐步增加图像数量,从50张到350张,直到模型性能趋于稳定。
### 三、研究结果与分析
研究结果显示,当使用1000倍油浸放大倍数的图像时,无论是彩色图像还是灰度图像,模型的性能均达到最佳水平。具体而言,彩色图像的准确率为95.8%,ROC面积为0.997,F值为0.958;而灰度图像的准确率为96.67%,ROC面积为0.994,F值为0.967。这表明,1000倍油浸放大倍数的图像在细胞学分类中具有显著优势,其高分辨率能够提供更清晰的细胞形态信息,有助于AI模型的准确识别。
此外,研究还发现,图像数量对模型性能有显著影响。当每类样本的图像数量达到150张时,模型的准确率、ROC面积和F值均达到较高水平。随着图像数量的增加,模型的性能逐渐提升,但提升幅度逐渐减小,最终在350张图像时趋于稳定。这表明,图像数量达到150张时,已经能够为AI模型提供足够的训练数据,使其具备良好的分类能力。然而,对于实际临床应用,可能需要更多的图像以覆盖更多样化的病例,提高模型的泛化能力。
值得注意的是,当模型使用三种放大倍数的图像(200×、500×、1000×)进行训练时,其性能有所下降。这可能是因为模型在学习过程中难以同时处理不同放大倍数的图像,导致分类准确性降低。因此,研究建议在构建AI模型时,应优先使用单一放大倍数的图像,特别是1000倍油浸放大倍数的图像,以提高模型的分类效果。
在评估图像类型对模型性能的影响时,研究发现,彩色图像与灰度图像在分类效果上没有显著差异。这表明,AI模型在处理细胞学图像时,对图像颜色信息的依赖程度较低,主要依赖于细胞的形态特征和结构信息。因此,在实际应用中,可以选择使用灰度图像以减少计算资源的消耗,同时不影响模型的分类性能。
### 四、讨论与展望
本研究的主要结论是,使用1000倍油浸放大倍数的图像,无论是彩色还是灰度,均能显著提高AI模型在区分LCL和NL中的准确率。此外,每类样本至少需要150张图像以确保模型的稳定性,而图像数量超过150张后,模型性能的提升幅度逐渐减小,这表明在进行初步AI研究时,150张图像是一个合理的起点。
然而,研究也指出了其局限性。首先,由于细胞学样本的细胞密度存在自然差异,部分病例仅贡献了一个感兴趣区域(ROI),这可能影响模型的训练效果。但需要注意的是,细胞病理学的诊断通常基于足够的细胞密度,而不是总图像数量,因此模型的训练并不受病例数量的限制。其次,本研究未使用全切片图像(WSI),而是采用了显微镜相机采集的图像,这是由于WSI的数据存储需求较大,超出了本研究的范围。随着WSI技术的普及,未来可以考虑结合WSI和显微镜图像进行更全面的分析。
此外,研究团队在评估模型性能时采用了常见的ROC面积阈值,但考虑到兽医医学的高风险性,如误诊可能导致动物被安乐死,因此建议采用更保守的阈值以确保诊断的准确性。同时,本研究的AI模型仅针对两类样本(LCL和NL),未来可以扩展至更多疾病分类,以评估模型在不同病理类型中的适用性。
本研究为AI在细胞病理学中的应用提供了初步的验证。下一步是进行外部验证,即在不同的数据集或实验室中测试模型的性能,以评估其在实际临床环境中的适用性。外部验证将包括模型的偏差检测、不确定性评估、重复性测试、运行时监控以及压力测试等,以确保模型的可靠性和安全性。此外,模型还需要进行校准,以适应不同实验室的图像采集方式和染色方法。
### 五、结论
本研究的结果表明,对于一个2类问题的AI模型,1000倍油浸放大倍数的图像能够显著提高模型的分类能力,而图像类型对模型性能的影响较小。因此,在构建AI模型时,应优先选择1000倍油浸放大倍数的图像,并确保每类样本至少有150张图像以获得最佳性能。未来的研究可以进一步扩展模型的应用范围,探索其在更多疾病分类和不同物种中的表现,以推动AI在兽医细胞病理学中的实际应用。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号