
-
生物通官微
陪你抓住生命科技
跳动的脉搏
AI辅助3D飞行时间MR血管造影脑动脉瘤检测:用户变异性与临床意义深度解析
【字体: 大 中 小 】 时间:2025年09月17日 来源:Journal of Natural Pesticide Research CS2.3
编辑推荐:
本研究针对3D TOF-MRA中脑动脉瘤AI辅助检测的泛化性与重现性难题,通过多模型优化及医师多层级评估,揭示AI辅助性能受医师经验显著调节:非专家组灵敏度72.1%(FPs/case 0.037),专家组达88.6%(FPs/case 0.076),强调临床部署前需 rigorous external validation,为AI医疗工具的实际应用提供关键循证依据。
脑动脉瘤破裂是非创伤性蛛网膜下腔出血的主要病因,死亡率高达44%,且幸存者中20%会遗留永久性功能障碍。随着未破裂颅内动脉瘤(UIA)在普通人群中检出率达3.2%,如何高效、准确地检测UIA已成为临床优先任务。虽然数字减影血管造影(DSA)仍是动脉瘤评估的金标准,但无创的三维飞行时间磁共振血管造影(3D TOF-MRA)因其安全性和可及性,已成为UIA筛查的首选方法。然而,逐年增长的扫描量给放射科资源带来巨大压力,医师疲劳和诊断错误的风险也随之上升。
近年来,基于卷积神经网络(CNN)的人工智能(AI)技术为3D TOF-MRA上的动脉瘤自动检测带来了希望。已有研究表明,深度学习工具辅助医师可显著提高检测灵敏度,但多数研究集中于CT血管造影,关于医师在3D TOF-MRA上使用AI模型进行UIA检测的数据仍十分有限。此外,现有研究存在几个关键空白:方法学上,缺乏多中心和公共数据集的支持,不同模型在同一数据集上的表现差异引发了对泛化性和重现性的质疑;临床解释上,医师使用AI工具时的表现变异性、解剖特征对检测的影响以及AI辅助检测的整体临床相关性仍需深入探索。
为应对这些挑战,Liang LIAO团队开展了一项回顾性研究,旨在评估医师在AI辅助下的表现,重点分析用户间和用户内变异性,探讨影响表现的因素及其临床意义。该研究近期发表于《Journal of Natural Pesticide Research》,为AI在医学影像中的实际应用提供了重要见解。
研究采用多项关键技术方法:首先利用内部数据集(132例患者、206个动脉瘤)对四种最先进的AI模型(nnU-Net、nnDetection、SCPM-Net和Assis模型)进行超参数优化,并通过5折交叉验证筛选出性能最佳的nnDetection和Assis模型;随后在一个经修订的外部公共数据集(270例患者、174个动脉瘤)上评估模型表现;最后组织五名不同经验水平的医师(非专家、专家和中间水平各一组)分别使用两种AI模型进行两次辅助评估,通过3D Slicer软件记录其验证、拒绝或添加标注的行为,并与专家修订的金标准对比计算灵敏度和假阳性率。
内部数据集包含132例患者(平均年龄56±12岁),共有206个动脉瘤(平均大小4.0±2.3 mm)。外部数据集经修订后包括270例患者(平均年龄52±14岁)和174个动脉瘤(平均大小3.7±2.2 mm),其中140例患者有动脉瘤,130例为健康个体。动脉瘤位置分布广泛,最常见于大脑中动脉(MCA)和前交通动脉(ACom)。
两种AI模型的汇总独立性能显示灵敏度为86.8%,假阳性每例(FPs/case)为0.58。AI辅助下,非专家医师的灵敏度为72.1%(FPs/case 0.037),专家医师达到88.6%(FPs/case 0.076),中间水平医师为78.5%(FPs/case 0.037)。组内一致性分析显示,非专家组的Fleiss’ kappa为0.57(95% CI: 0.54–0.59),专家组为0.53(95% CI: 0.51–0.55),组间差异无统计学意义(Z=-0.74, p=0.46)。
在AI独立检测中,漏诊(FN)的动脉瘤平均直径显著小于真阳性(TP)(2.5±1.4 mm vs. 3.7±2.0 mm, p<0.001)。这一趋势在医师使用AI时同样存在:非专家和专家组的FN动脉瘤均小于TP(p<0.001)。专家组的假阳性(FP)动脉瘤小于TP(2.7±1.2 mm vs. 3.8±2.1 mm, p<0.001),但非专家组无显著差异(p=0.09)。动脉瘤位置的影响因AI模型和医师经验而异:FN位置主要依赖模型(如nnDetection多在海绵窦段和MCA,Assis模型多在眼段和海绵窦段),而TP和FP位置则反映医师经验(非专家多确认ACom和眼上段,专家多确认眼上段和胼周动脉)。
非专家更常拒绝AI建议(19.9%的错误丢弃),且添加标注较少(共25个,其中48%为FP);专家则更为保守(仅4.8%错误丢弃),添加更多标注(共74个,48.6%为FP)。非专家最常因MCA分叉处弯曲血管的误解而丢弃动脉瘤,专家则多因海绵窦段动脉瘤的低感知风险而拒绝。专家在ACom处更易添加或接受FP,反映对该位置高风险小动脉瘤的过度关注。
本研究通过严谨的多模型比较和医师层级评估,揭示了AI辅助检测在3D TOF-MRA应用中的复杂性和挑战。首先,仅评估AI独立性能不足以反映其临床适用性,实际检测结果和模式在AI独立使用与医师辅助使用间存在显著差异,且受医师经验水平调节。其次,小动脉瘤(<3 mm)的检测仍是难点,所有医师-AI组合都更易漏诊,但专家在确认小动脉瘤时产生更多FP。此外,动脉瘤位置对检测的影响具有双重性:FN位置主要由AI模型决定,而TP和FP位置则更多反映医师的专业判断和经验偏好。
这些发现对临床实践具有重要指导意义。对于非专家医师,建议仅在有充分把握时拒绝AI建议,否则接受提示可能更为安全,因其FP率已处于低位(0.037),且自行添加标注的准确率较低(近半为FP)。对于专家,AI辅助可带来灵敏度的小幅提升,但需注意对高风险部位(如ACom)的过度诊断倾向。
研究强调,在临床部署前,必须进行严格的外部验证(类似医疗器械评估),以确保AI工具在不同场景下的可靠性和安全性。未来工作应聚焦于基于修订金标准重新训练模型,重点优化解剖挑战区域的检测能力,并通过前瞻性真实世界工作流程评估确认其临床效用。
总之,这项研究不仅深化了对AI辅助脑动脉瘤检测的理解,还为制定基于医师经验的个性化使用指南提供了实证基础,推动AI在神经放射学中的精准、安全应用。
生物通微信公众号
知名企业招聘