
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于真实世界数据与临床亚组的胸部X线人工智能阈值优化:提升诊断准确性与临床接受度的创新策略
【字体: 大 中 小 】 时间:2025年09月23日 来源:European Radiology Experimental 3.6
编辑推荐:
本研究针对制造商预设AI阈值在胸部X线分析中缺乏定制化的问题,提出一种整合病理富集数据与真实世界临床亚组数据的阈值优化策略。通过分析15,786例连续常规胸部X线影像,研究证明了针对住院和门诊患者分别优化阈值可显著提升AI对胸腔积液、实变、气胸和结节的检测性能,为AI算法在临床实践中的个性化应用提供了重要依据。
胸部X线摄影(CXR)作为最常用的医学影像检查之一,在临床诊断中发挥着重要作用。随着人工智能(AI)技术在医学影像分析领域的快速发展,基于AI的CXR分析系统正逐渐融入临床工作流程。然而,这些系统面临着一个关键挑战:制造商预设的AI阈值往往缺乏定制化选项,无法适应不同临床场景和患者亚组的特定需求。
目前大多数AI算法在预临床训练和验证阶段使用大型公共数据集,这些数据集通常包含混合质量的标注,有时甚至通过自然语言处理自动生成报告解释。虽然接收者操作特征(ROC)分析作为医学测试评估的标准方法具有重要价值,但其关联的截断阈值通常源自人工构建的病理富集队列,采用患病率无关的优化策略(如Youden's J准则),没有考虑真实世界患病率的影响。在实际临床环境中,不同的患者人群可能需要不同的阈值,这取决于住院状态、合并症或典型病理共现等因素。
为了解决这一问题,慕尼黑大学医院的研究团队在《European Radiology Experimental》上发表了一项创新性研究,提出了一种针对临床亚组的AI阈值优化策略。该研究不仅使用了病理富集的数据集,还整合了一个大型真实世界队列——来自欧洲主要大学医院的15,786例连续CXR影像,涵盖了住院和门诊患者亚组。
研究人员建立了一个自动化管道方法,通过迭代ROC分析将可实现灵敏度与研究队列中的AI阈值联系起来,并量化临床常规中产生的AI警报率。优化阈值(OTs)的定义标准是:灵敏度每增加1%会导致AI警报率增加超过1%。这种方法使得在不需要大量专家阅读的情况下,仅利用AI得分的分布就能进行阈值优化,平衡了实现高灵敏度(可从合成数据集中得出,不依赖患病率)和维持可接受的AI警报率(从临床实践中的AI得分分布得出)之间的关系。
研究团队使用了一个包含563例CXR的病理富集研究队列,该队列平衡了胸腔积液、实变、气胸、结节和无显著发现的患病率(各占10-20%)。六位放射学专业人员(三位经验丰富的 board-certified radiologists (BCRs) 和三位放射科住院医师 (RRs))对这些图像进行了独立评估。同时,临床队列包含了2018年在该大学医院采集的所有直立位CXR影像,其中11,900例为住院患者,3,619例为门诊患者。
关键技术方法包括:使用经过残余骨干网、卷积特征金字塔网络和判别器网络训练的单次拍摄目标检测神经网络;采用基于焦点损失的多标签分类和基于区域重叠与中心距离的坐标回归任务的损失函数;通过四位参考读者的5点Likert量表评估生成二元参考标准(RFS I-IV);利用病理富集数据集进行ROC分析并与临床队列的AI警报率关联。
研究结果显示,对于胸腔积液检测,优化阈值(OTs)和Youden's J准则优化的阈值明显低于AI开发者的默认阈值(AIDT)。在门诊亚组中,灵敏度从46.8%(AIDT)显著提高至87.2%(OPOT),但同时警报率从10.6%上升至44.0%,超过了估计的临床门诊组患病率23.5%。在住院亚组中,灵敏度从76.3%(AIDT)提高至93.5%(IPOT),警报率从40.6%上升至59.1%,也超过了估计的临床住院组患病率46.5%。

在实变/肺炎检测方面,基于更敏感的RFS III/IV的OTs和Youden's J优化阈值也低于AIDT。门诊亚组的灵敏度从53.2%(AIDT)显著提高至97.9%(OPOT),但警报率上升至69.9%,远超过估计的患病率23.5%。住院亚组的灵敏度从58.6%(AIDT)提高至82.8%(IPOT),警报率上升至56.8%,明显超过估计的患病率29.0%。

气胸检测的结果显示,AIDT与IPOT以及Youden's J阈值匹配良好,只有OPOT明显低于AIDT。遗憾的是,由于临床门诊组气胸患病率较低(估计为2.5%),限制了诊断指标的量化,无法证明通过降低阈值可以提高灵敏度。

结节检测呈现出不同的效果。计算得到的IPOT和Youden's J阈值都超过了AIDT,只有OPOT低于AIDT。在住院亚组中,使用IPOT代替AIDT保持了90.9%的高灵敏度,同时显著提高了准确度(从69.5%到82.5%),并将警报率从38.7%降低到22.0%,这显示出了相关的降敏潜力。相反,在门诊患者中,OPOT虽然将灵敏度从81.3%非显著提高至93.8%,但这被准确度的显著下降(从78.0%到37.5%)和警报率急剧上升至65.4%所抵消,远超过5.5%的患病率。

研究的讨论部分强调,这种创新的阈值优化策略扩展了传统方法(如Youden's J方法),能够直接关联灵敏度与AI警报率,自然考虑假阳性,从而使优化更符合临床现实和警报的实际负担。该方法还允许考虑大规模真实世界成像数据集,差异性地整合临床亚组考虑,以 individually 细化阈值优化,更好地满足医学专家用户或患者亚组的特定需求。

研究的优势在于其多功能性,能够同时使用具有六位专家阅读者强参考标准的病理富集研究队列(563例)和具有临床代表性的1年队列(15,786例)计算多个参数。该方法首先计算个体参考阅读者的ROC曲线,解决阅读者间变异性问题。关键结果包括量化预期灵敏度(源自研究队列)与临床实践中相关警报率之间的阈值依赖关系,这些关系用于通过斜率分析提取特定亚组的优化阈值。
该研究的局限性包括依赖单中心病理富集数据集(仅包含后前位视图),排除无法进行直立成像的患者,以及所有六位参考阅读者可能具有相似的培训背景。目前,临床队列无法通过更大的公开数据集补充或替换以实现多中心设计,因为基于当前知识,现有数据集中没有可比较的亚组分类(特别是住院患者与门诊患者)。提出的优化管道基于二进制输出,不考虑潜在的AI不确定性。
研究人员总结指出, individualized AI阈值优化可以为不同的临床亚组提供益处,特别是通过将亚组特定因素(如受疾病患病率影响的AI警报率)纳入创新阈值策略。此外,只要监管框架允许,用户适应的阈值设置调整也可能是进一步增强AIbased诊断工具的临床适用性、性能和感知的可行且有前景的方法。
这项研究为AI在胸部X线分析中的临床应用提供了重要见解,展示了通过个性化阈值优化如何提高诊断准确性和临床接受度,为未来AI在医学影像中的更精准应用指明了方向。
生物通微信公众号
知名企业招聘