
-
生物通官微
陪你抓住生命科技
跳动的脉搏
综述:人工智能在诊断髌股关节炎、滑车发育不良和髌股轨迹中的诊断和预测性能表现不一
【字体: 大 中 小 】 时间:2025年09月25日 来源:Arthroscopy, Sports Medicine,and Rehabilitation CS2.7
编辑推荐:
本综述系统评估了人工智能(AI)在髌股关节(PF)疾病诊断与预测中的应用。结果显示,AI模型(如深度学习DL和机器学习ML)在识别髌股关节炎(PFOA)、滑车发育不良和髌股轨迹异常方面表现出中等至优秀的性能(AUC: 0.664–0.990,准确度: 74–99%),部分模型甚至超越传统诊断方法(如肌肉骨骼放射科医师评估)。然而,研究存在显著异质性(如模型架构、成像方式差异),且普遍受限于样本量小、单中心数据及泛化能力不足。因此,尽管AI辅助工具有望提升影像解读效率与一致性,其临床推广应用仍需进一步优化与外部验证。
人工智能(AI),特别是深度学习(DL)和机器学习(ML)的进步,已影响了包括骨科手术在内的众多领域。机器学习作为AI的一个子集,涉及开发允许计算机从数据中学习并基于数据做出决策的算法。深度学习是机器学习中更先进的一个子集,它利用具有许多层的神经网络来分析大型数据集中的复杂模式和特征。这些技术的演进使得深度学习算法能够解读复杂的数据模式,而机器学习则增强了预测建模能力。
在骨科手术中,AI的应用已覆盖从术前规划、术中引导到术后康复的各个阶段。特别是在自动化图像处理和分析方面,AI的利用显著提高了诊断过程的效率。在骨科领域,AI算法正在被评估以帮助临床医生进行实时骨折识别、肿瘤生存预后、植入物定位的术后评估,以及最近用于检测膝关节软组织损伤。
AI的影响在髌股(PF)病理的管理中尤为相关,准确的评估、诊断能力以及对结果的预测建模对于有效和高效的治疗至关重要。目前,AI的主要应用是利用MRI和CT图像来检测软骨、骨骼和软组织的细微变化,这些变化指示了诸如髌股疼痛综合征、髌骨软骨软化症、骨关节炎和髌骨不稳定等疾病。机器学习模型可以预测这些疾病的状况以及各种治疗方式的结果,有助于制定个性化的治疗计划。
尽管AI已展现出益处,但其在利用放射学和横断面成像诊断膝关节损伤(如髌股关节炎(PFOA)、滑车发育不良/髌骨软骨软化症以及髌股轨迹异常)方面的应用仍知之甚少。因此,本研究旨在系统回顾和评估AI模型在检测髌股(PF)间室病理方面的诊断效力和预测能力,并在适用时将其性能与地面真实人类临床专家进行比较。
两名独立作者(JTK, MAB)在相互盲法的情况下,按照PRISMA指南完成了文献查询,并审查了搜索结果,第三作者(ETH)可用于对潜在分歧或差异进行仲裁。研究根据文章标题和摘要的初步批准筛选被确定符合全文审查资格。
使用PubMed、OVID/Medline和Cochrane图书馆,从数据库建立到2024年5月,按照PRISMA指南进行了系统综述。使用布尔搜索语法以捕捉初始搜索中最大数量的文章进行筛选。
建立了严格的纳入标准以确保所选文献的完整性和相关性。文章如果满足三个关键标准则被视为合格:必须研究了专门用于检测滑车发育不良或髌股轨迹异常的人工智能的开发或应用,使用横断面成像技术;必须在同行评审的英文期刊上发表,并且研究的全文必须可用。排除标准包括仅以摘要形式呈现的研究、技术论文、尸体或动物实验或致编辑的信。
只有在应用这些严格的纳入和排除标准后,才对筛选入的文章进行全文检查。此外,为确保完整性,对所有纳入研究中引用的参考文献进行了详尽审查。两名独立作者(JTK, MAB)使用预定义的Microsoft Excel数据表(Microsoft Corporation, Redmond, WA, USA)和修改后的信息提取表,系统编译了所有相关数据。
所有数据均以定性方式合成,并以叙述形式和个别表格格式报告。提取的数据以平均值、中位数、范围和置信区间(如适用)呈现,并在各自的研究中提供。感兴趣的结果测量包括准确度、AUC、AP、数据离散度(MAE、MAD、RMS)、评估者间可靠性(Kappa/ICC)、敏感性和特异性、PPV/NPV和Dice系数。未进行回归建模或预测分析,因为分析是描述性的,不需要推断建模。
通过电子数据库搜索最初确定了总共69项研究。在去除重复记录后,根据预定义的纳入和排除标准对剩余文章进行了评估。经过对全文资格的彻底评估,最终有17项研究被选中纳入本综述,进行定量和定性数据分析。
所有研究被分类为III级和IV级证据,非随机研究方法学指数(MINORS)平均得分为5.35±0.68。大多数研究(17项中的14项,82.4%)本质上是回顾性的,64.7%(17项中的11项)采用了预测性设计。
对所纳入研究中采用的各种AI模型进行了全面概述,详细说明了它们各自的图像输入类型、图像平面和地面真实/参考标准。为了清晰解释深度学习概念,需要注意的是深度神经网络可能遭受消失梯度问题,即梯度在通过许多层反向传播时变得越来越小。这损害了早期网络层的训练,使模型难以学习,因为重要信号在向后传播过程中变弱。跳跃连接,在某些架构(如ResNet)中引入,通过创建非相邻层之间的直接路径或捷径来帮助缓解此问题,允许梯度更有效地流动,并使得能够训练更深的网络。
ResNet(残差网络)和U-Net CNN是广泛使用的CNN架构之一。ResNet通过引入跳跃连接来解决消失梯度问题,允许训练更深的网络。ResNet-50和ResNet-101是在图像分类和其他计算机视觉任务中取得显著成功的著名例子。U-Net主要用于生物医学图像分割,具有捕获上下文的收缩路径和用于精确定位的对称扩展路径。它在小型训练数据集上特别有效。
HR Net(高分辨率网络)和MI-CNN(多实例卷积神经网络)进一步扩展了CNN能力。HR Net在整个网络中保持高分辨率表示,这对于需要高空间精度的任务(如姿态估计和物体检测)至关重要。MI-CNN设计用于处理图像中的多个实例,使其适用于检测多个物体或感兴趣区域。
R-CNN(基于区域的卷积神经网络)和D-CNN(扩张卷积神经网络)在物体检测和语义分割中至关重要。R-CNN提取区域提议并对每个区域应用CNN,该方法通过其变体Fast R-CNN和Faster R-CNN得到增强,以提高效率和准确性。D-CNN使用扩张卷积来扩大感受野而不增加参数数量,有效捕获多尺度上下文,这对于语义分割等任务至关重要。
GBM + CNN(梯度提升机+卷积神经网络)结合了CNN用于初始图像处理和GBM用于最终预测的优势。这种混合模型可以显著提高不同实施中的性能。SSPA-NN + SSM(监督时空聚合神经网络+空间结构挖掘)利用组合方法聚合时空信息并提取空间结构,这对于时间序列数据或空间依赖关系有益。
MWRN(多小波残差网络)将小波变换与残差网络集成,以捕获空间和频率信息,使其适用于多尺度特征分析。HNN(超复数神经网络)将传统神经网络扩展到处理超复数,使得能够高效处理多维数据,这在信号处理和3D图形等领域具有优势。
TRGCN(时间关系图卷积网络)和SVM(支持向量机)说明了基于图和传统机器学习模型与深度学习结合的应用。TRGCN将图卷积网络与时间信息结合,适用于分析随时间演变的结构化数据,如社交网络或视频数据。尽管SVM不是深度学习模型,但它经常与CNN集成以增强分类性能,特别是在数据集有限的情况下。
这些模型利用各种成像模态,包括CT、MRI和X光片,跨越不同平面(轴向、矢状、冠状、动态和3D重建)。例如,ResNet和SSPA-NN + SSM利用CT扫描,地面真实分别由肌肉骨骼(MSK)放射科医生和先前的算法分割提供。像GBM + CNN、MI-CNN、HR Net和R-CNN这样的模型主要使用X光片,通过各种标准进行验证,例如多种算法的比较、单输入CNN、MSK放射科医生和独立专家评分员。MWRN、U-Net CNN、D-CNN、SVM、HNN和TRGCN采用MRI扫描,地面真实由关节镜检查、高级外科医生、广泛数据库和具有丰富经验的放射科医生提供。
在评估所纳入研究的性能指标时,根据准确度、AUC、AP、数据离散度(MAE、MAD、RMS)、评估者间可靠性(Kappa/ICC)、敏感性和特异性、PPV/NPV和Dice系数,描述并分组了不同的趋势和差异。文献中用于定量评估模型性能、研究预测准确度和AUC的最标准化指标如图2和图3所示。
这些研究展示了最高水平的准确度、AUC和额外性能指标,通常得到强大样本量和全面方法的支持。在临床上,这些研究评估了AI模型使用成像生物标志物识别特定PF异常(如滑车发育不良、骨关节炎严重程度和髌骨不稳定)的能力。
还有一些研究表现出强大但略低于优异组的性能指标。这些研究呈现了合理但不那么一致的结果,通常伴随着一系列性能指标和不同的样本大小。几项研究要么在性能指标上得分低,要么具有有利的指标但呈现了不完整的数据或有限的输出。
使用修改后的MINORS评分进行质量评估,该评分先前已在文献中建立用于评估人工智能模型。所纳入研究的平均MINORS得分为5.35±0.68,表明整体方法学质量较高。然而,分析显示,方法学质量评估的大部分扣分主要是由于数据集分布报告不足。具体来说,许多研究未能充分描述其数据集的训练、验证和测试阶段参数。此外,另一个薄弱环节是未能明确定义参考AI标准的地面真实。这对于准确评估AI模型的性能和可靠性至关重要,作为可以比较模型输出的基准。
本研究的主要发现是,用于诊断和预测髌股病理的人工智能模型的AUC和预测准确度范围分别为0.664–0.990和74–99%。然而,所分析的研究在方法和结果报告方面存在显著异质性,这使得跨研究的泛化具有挑战性,但为模型进一步细化提供了若干途径。
本综述中评估的AI模型展现出广泛的诊断能力,证明了它们增强临床实践的潜力。值得注意的是,Cerveri等人2018年和Tuya等人2022年开发的模型实现了异常和近乎完美的诊断准确度,准确率分别达到0.97至0.99,AUC值范围分别为0.91至0.98。这些高指标表明这些模型非常适合于识别PF间室病理, potentially leading to improved diagnostic precision and patient outcomes。同样,Yurova等人2024年和Cheng等人2020年的模型在分割任务中表现出鲁棒性能,Dice系数分别高达0.984和0.94–0.94。该系数衡量预测分割结果与实际分割结果之间的重叠,反映了模型准确描绘PF间室结构(如滑车沟和髌骨面)的能力——这是有效诊断和治疗计划的关键组成部分。此外,Xu等人2023年报告了0.88的准确度和0.88的AUC,以及0.79的敏感性和0.96的特异性。该研究还注意到Kappa值为1,PPV为0.94,NPV为0.84,样本量为464。Xu等人研究中多个性能指标的全面报告说明了全面评估模型有效性所需的多方面方法。对于研究中评估的其他模型,不完整的结果指标报告削弱了就模型性能得出明确结论的能力,并突出了髌股病理AI模型研究需要统一性的必要性。
虽然大多数研究集中于识别和诊断髌股病理,但有几项研究进展到了下一个逻辑步骤,即基于初始成像生物标志物预测疾病进展和临床结果。例如,Bayramoglu等人2022年证明了根据X光片上的基线髌骨纹理特征预测骨关节炎进展的能力。同样,Hu等人2024年开发了一个模型,该模型学习了膝关节结构和间室的内在联系和纵向模式,为识别和预测膝关节OA进展提供了可解释的见解。最后,Nagawa等人2024年开发了一个基于ML的PF不稳定预测模型,使用基于3D-MRI的股骨形状模型,并获得了良好的预测性能。这些研究表明,AI在临床实践中的未来可能从仅用于诊断目的演变为也纳入预测能力。通过利用放射或横断面成像——这已经是临床路径中的标准护理指令——来分析解剖特征,AI可以帮助临床医生预测疾病模式、髌股不稳定和骨关节炎的进展。
关于质量评估和方法学考虑,修改后的MINORS评分的应用显示研究的平均得分为5.35±0.68,反映了普遍较高的方法学质量。该分数表明大多数研究在AI模型开发和评估方面遵循了严格标准。然而,一些研究没有提供关于数据集分布、样本量或地面真实定义的详细信息。此类遗漏可能引入偏见并影响性能指标的可靠性。全面报告对于准确评估AI模型至关重要。关于数据集组成、模型训练过程和验证技术的细节对于理解模型性能和确保可重复性至关重要。一些研究中缺乏此类信息指出了AI研究中需要标准化报告实践以增强发现清晰度和可靠性的更广泛需求。
最近,几项研究强调了AI对各种骨科病理的优秀诊断性能。例如,Kunze等人分析了AI方法检测前交叉韧带(ACL)和半月板撕裂的诊断效力,发现虽然AI预测和性能优异,但AI模型并未超越临床专家。他们得出结论,AI应作为辅助工具来增强人类专家的诊断能力。同样,Ashinsky等人2017年使用机器学习从股骨髁的软骨映射中识别MR成像生物标志物,以高灵敏度和准确度预测早期骨关节炎进展。最后,de Carvalho等人2022年开发了一种先进的半自动分割模型,用于诊断拇僵直,该模型可靠地表达了出色的评估者间/评估者内可靠性,与地面真实手动分割相比具有高度可重复性。这些研究突出了骨科运动医学诊断未来的重大意义,敦促医生随着数字消费主义和创新时代的持续发展而熟练掌
生物通微信公众号
知名企业招聘