基于人工智能全玻片病理模型精准鉴别皮肤高级别鳞状上皮增生病变

【字体: 时间:2025年09月27日 来源:Virchows Archiv 3.1

编辑推荐:

  本研究针对皮肤鳞状细胞癌(cSCC)与寻常疣(VV)在组织学鉴别中的挑战,开发了一种基于聚类约束注意力多实例学习(CLAM)的深度学习模型。通过对289例H&E染色全玻片图像(WSIs)的分析,该模型在测试集上达到AUROC 0.96(95% CI 0.92-1)的优异性能,其诊断准确性与皮肤病理学家共识水平相当(p=0.841)。该研究为病理诊断提供了可解释的AI辅助工具,能有效减少误诊风险并优化临床诊疗流程。

  
在皮肤病理诊断领域,皮肤鳞状细胞癌(cutaneous squamous cell carcinoma, cSCC)和寻常疣(verruca vulgaris, VV)都是源于表皮角质形成细胞增殖的病变,但二者的临床处理方案和预后却截然不同。cSCC作为最常见的皮肤恶性肿瘤之一,虽然多数病例预后良好,但仍有约10%可能进展为局部晚期或转移性病变,需要手术干预甚至辅助放疗。而VV是由人乳头瘤病毒(HPV)感染引起的良性病变,在儿童中常可自愈,成人则多采用水杨酸、咪喹莫特或冷冻等温和治疗。然而在组织学层面,特别是在小活检或浅表取样标本中,这两种病变都可能表现出显著的角化过度和棘层增厚,有时甚至出现细胞异型性,使得鉴别诊断极具挑战性。误诊可能导致对恶性病变的治疗不足或对良性病变的过度治疗,给患者带来不必要的身心负担和医疗风险。
随着人工智能技术在医学影像领域的革命性进展,深度学习算法在识别组织学细微特征方面展现出超越人眼的能力。《Virchows Archiv》最新发表的一项研究探索了AI在解决这一诊断难题中的应用潜力。德国埃尔朗根大学医院的研究团队开发了一种基于聚类约束注意力多实例学习(CLAM)的深度学习模型,专门用于区分cSCC和VV的H&E染色全玻片图像(WSIs)。
研究人员采用回顾性收集的临床样本,所有WSIs使用Pannoramic 250 FLASH扫描仪数字化。研究纳入了来自135名患者的148例cSCC样本和132名患者的141例VV样本,这些样本代表了不同的活检技术( spindle excision, punch biopsy, or curettage/shave biopsy)。通过SlideFlow Studio工具选择最具代表性的组织区域,提取256×256像素(0.5μm/像素)的图块作为模型输入。采用灰度空间过滤(grayspace fraction of 0.6)去除不合格图块。
关键技术方法包括:使用CLAM架构进行弱监督学习;采用病理专用预训练模型Phikon(基于40万个组织学图块训练的视觉Transformer)进行特征提取;应用FastAI框架和1 cycle学习率调度进行模型训练;通过三折交叉验证优化超参数;使用注意力机制生成可解释的热图。

数据集

研究最初收集了313张数字化H&E染色WSIs,经过四位皮肤病理学家组成的共识委员会审查后,排除了19张不符合cSCC/VV诊断标准的WSIs,并修订了4个病例的原始标签。最终数据集包含289张WSIs(148 cSCC, 141 VV),其中216张(114 cSCC, 102 VV)用于训练,73张(34 cSCC, 39 VV)作为评估队列。
患者和病变特征分析显示:cSCC样本主要来自男性患者(73.0%),平均年龄79.3岁,病变多位于头颈部(77.0%),组织学上多为高分化(G1:80.4%);而VV样本的性别分布更均衡(51.1%男性),患者平均年龄63.6岁,也多见于头颈部(43.2%)或四肢(37.6%)。

训练

在训练过程中,模型在k-fold 1的第10个epoch达到最佳性能,验证损失为0.055。该epoch的训练损失为0.035,验证集的AUROC达到0.99(95% CI 0.97-1),平均精度(AP)为0.99(95% CI 0.97-1)。模型对cSCC的预测准确率为94.9%(37/39),对VV的准确率为91.2%(31/34)。
在k-fold 2和3的训练中也观察到可比的结果:k-fold 2对cSCC和VV的准确率分别为86.8%和91.2%;k-fold 3分别为89.5%和93.9%。由于k-fold 1的性能最优,被选为最终模型。

评估

在最终评估集上,模型的AUROC为0.96(95% CI 0.92-1),AP为0.96(95% CI 0.91-0.99)。对cSCC的预测准确率为82.4%(28/34),对VV的准确率为97.4%(38/39)。预测值分布直方图显示大多数预测值在95-100%之间,但有两个cSCC样本的预测概率在50-60%之间,表明这些样本对模型来说存在模糊性。
注意力热图分析显示,模型关注的组织区域与诊断相关性高度一致:在cSCC病例中,高注意力区域与不典型角质形成细胞的浸润性巢状结构重合;在VV病例中,注意力集中在教堂尖顶状乳头瘤病和挖空细胞样改变区域。虽然一些角化区域偶尔也获得高注意力分数,但这些区域的cSCC预测概率较低,反映了模型能够区分特异性和非特异性特征。
在外部COBRA测试集的50例高分化cSCC中,模型正确分类了43例,准确率达86%。

与皮肤病理学家诊断性能的比较

六位皮肤病理学家独立评估了全部73例测试集样本。专家共识的AUROC和AP均为0.97(95% CI 0.92-1)。所有六位评估者完全一致的诊断仅占43例(58.9%),其余30例(41.1%)至少有一位专家提出不同诊断,其中5例(6.8%)甚至出现3:3的平均分配,凸显了这一诊断任务的临床复杂性。
AI模型的表现与皮肤病理学家的共识性能无显著差异(AUROC的p=0.841,AP的p=0.828)。与个体评估者相比,AI模型描述性优于平均皮肤病理学家(平均AP=0.84)。在类别特异性准确率方面,AI对cSCC和VV的准确率分别为82.4%和97.4%,而皮肤病理学家的平均准确率分别为78.9%和91.5%。

AI模型误分类的定性分析

对AI模型误分类案例的详细审查发现,大多数分歧发生在诊断具有挑战性的玻片上,这些案例在人类专家中也存在争议:
一张原标记为VV的玻片被AI以96.9%的置信度分类为cSCC,六位皮肤病理学家中的三位也支持cSCC诊断;一例AI预测为VV(59.3%置信度)而地面实况为cSCC的案例,一位皮肤病理学家同意AI的判断,认为可能是"早期cSCC或伴有基底癌变的日光性角化病";一例原标记为cSCC的案例被AI以99.7%的置信度预测为VV,所有六位皮肤病理学家也都标记为VV,表明可能存在地面实况错误。
假设六位皮肤病理学家的多数投票作为地面实况(排除五例3:3分割的案例),AI模型对cSCC和VV的准确率分别达到85.2%和95.1%。值得注意的是,在此参考框架下被AI错误分类的所有案例都是那些存在诊断模糊性的案例,至少有一位皮肤病理学家不同意共识。相反,所有六位皮肤病理学家一致同意的案例都被AI模型正确预测。

讨论与结论

本研究成功开发并验证了一种基于深度学习的弱监督模型,能够准确区分cSCC和VV的H&E染色WSIs,其性能与皮肤病理学家共识相当。模型的可解释性通过注意力热图得到增强,能帮助病理学家关注关键诊断区域。
研究的质量控制在数据管理过程中融入了多个环节:训练队列由四位皮肤病理学家组成的共识委员会独立审查,评估队列由另外六位专家评估。这种方法不仅提高了诊断可靠性,还允许量化观察者间的变异性。六位皮肤病理学家在仅43例评估案例中达成完全一致,突显了区分cSCC与VV的现实挑战和临床相关性。
AI模型的错误分析支持了这一观点:几个误分类案例显示出较高的内部预测确定性,而在部分这些案例中,所有或大多数皮肤病理学家也支持VV诊断,尽管初始地面实况被定义为cSCC。这表明所谓的模型"错误"实际上可能反映了人类分配标签的真实不一致性或局限性。
虽然本研究存在一些局限性(单中心数据集、单一扫描仪、二元分类器等),但在外部COBRA数据集上86%的准确率表明模型具有一定的泛化能力。未来的工作应扩展到多中心数据集,包含更多样化的扫描和染色协议,并将诊断范围扩大到包括日光性角化病、角化棘皮瘤等其他类似病变。
该研究展示了AI在皮肤病理学中的巨大潜力,特别是在诊断模糊的情况下提供决策支持。当与专家审查和客观生物标志物(如遗传数据)结合时,AI模型可以提供额外的诊断视角,有助于提高诊断可靠性,优化医疗资源利用,最终改善患者治疗效果。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号