综述:人工智能在周围动脉疾病诊断中的应用:系统性综述

【字体: 时间:2025年09月21日 来源:Kidney International Supplements 89.6

编辑推荐:

  本综述系统评估了人工智能(AI)在周围动脉疾病(PAD)诊断中的最新进展,涵盖多种数据模态(如超声、CTA、PPG等)和模型(如CNN、随机森林等),发现AI诊断准确性高(中位准确度90%),但存在数据集偏差、报告不透明和泛化性不足等局限,强调需通过多学科合作、标准化报告(TRIPOD/PROBAST)和代表性临床数据推动其临床转化。

  

1. 引言

周围动脉疾病(Peripheral Arterial Disease, PAD)是一种全球性疾病,影响超过40岁人群中的1.52%,全球患者数超过1.13亿。PAD相关住院费用仅在美国就超过60亿美元,每次住院平均费用超过1.5万美元。PAD的发病风险随年龄增长而增加,在80-84岁人群中的发病率估计为14.91%。在糖尿病患者中,PAD的发病率约为非糖尿病患者的两倍,且自1990年以来其患病率已翻倍。尽管心血管疾病相关的死亡率和发病率日益受到关注,PAD仍然存在诊断不足、低估和治疗不充分的问题。PAD通常在晚期才被诊断,原因是患者意识缺乏和疾病早期阶段的无症状性,导致截肢风险较高。

早期实施最佳药物治疗可以延缓疾病进展。人工智能(Artificial Intelligence, AI)为改善PAD诊断提供了显著潜力,并已应用于动脉粥样硬化性疾病。这些技术已在冠状动脉计算机断层扫描血管造影(Computed Tomography Angiography, CTA)中估算血流储备分数(Fractional Flow Reserve, FFR)时作为诊断工具积极投入临床使用。此前的综述主要关注AI在冠状动脉的应用或对支持PAD诊断的AI工具进行了叙述性综述,尚未对AI作为PAD诊断工具的适用性进行系统和批判性评估。随着人口老龄化、糖尿病患病率增加以及医疗系统压力增大,探索新的改进方法以实现PAD的早期诊断至关重要,从而能够早期实施最佳药物治疗。这些方法可以通过智能可穿戴设备(如智能手表和智能手机)在社区中实施,基于血压测量、光电容积脉搏波(Photoplethysmography, PPG)、步态数据和图像。

本研究旨在系统综述AI在PAD诊断中的应用,评估其当前能力、潜力和局限性,并重点介绍最具临床转化前景的研究。本综述既新颖又及时,与最近的监管重点(如欧盟AI法案和美国FDA关于AI使用的指南)保持一致。对于所有纳入的AI模型,我们应用了多变量预测模型个体预后或诊断的透明报告(Transparent Reporting of a Multivariable Prediction Model for Individual Prognosis or Diagnosis, TRIPOD)指南来评估其透明度和质量,并应用预测模型研究偏倚风险评估工具(Prediction Model Risk of Bias Assessment Tool, PROBAST)来评估偏倚,以指导跨人群、分析和疾病严重程度的适用性。

2. 方法

本系统性综述遵循系统综述和Meta分析优先报告项目(Preferred Reporting Items for Systematic Reviews and Meta-Analyses, PRISMA)指南,重点关注采用AI方法进行PAD诊断的临床研究。搜索和选择过程包括三个阶段:(i)搜索和识别相关论文;(ii)标题和摘要筛选;(iii)全文筛选和纳入。研究方案已在国际系统综述前瞻性注册库(PROSPERO)注册(注册号CRD42024534202)。

A. 搜索策略与研究选择

搜索策略使用以下术语:周围动脉疾病[标题/摘要/MeSH术语/关键词]或外周动脉疾病[标题/摘要/MeSH术语/关键词]与深度学习[标题/摘要/MeSH术语/关键词]或机器学习[标题/摘要/MeSH术语/关键词]或人工智能[标题/摘要/MeSH术语/关键词]。搜索术语根据每个数据库的搜索术语结构进行了调整。纳入的数据库包括Embase、MEDLINE、PubMed、Cochrane和Scopus,覆盖时间为6年(2019年5月至2025年5月)。仅当有全文可用时才纳入摘要和海报。以预后、手术规划或手术结果为中心的文章被排除,因为本综述仅限于诊断应用。

B. 数据提取

数据管理和提取在Covidence中进行,该工具半自动去除重复文献,并辅以手动去除。三位评审员(R.D.W.、S.V.和R.Y.)独立筛选标题、摘要和全文。研究选择中的分歧通过讨论解决。每个步骤的排除原因均被记录。还筛选了纳入研究的参考文献列表。提取的数据包括:数据集特征(大小、平衡性和模态)、模型细节(类型和指标)、关键发现、临床验证信息以及TRIPOD和PROBAST评分。使用Covidence提取表研究特征,同时应用TRIPOD和PROBAST电子表格进行质量和偏倚评分。

C. 数据分析

使用描述性叙述综合总结研究特征,包括模型类型分布、指标类型和指标评分。结果基于提取的数据制成表格。模型进一步分为监督和无监督方法。

D. 证据质量与偏倚风险

AI模型的透明度和理解对于真实世界的临床应用至关重要。为评估方法学质量和透明度,对所有研究应用了TRIPOD指南。模型开发和验证中的偏倚风险由两位评审员(R.D.W.和A.G.)使用PROBAST独立评估。

3. 结果

A. 研究选择

研究选择过程的结果显示,最初导入Covidence的1063篇参考文献中,499篇被自动移除,134篇作为重复文献被手动移除,剩下429篇研究进行摘要和标题筛选。排除280篇不相关研究后,149篇进行了全文审查,其中117篇被排除。最终,32篇研究被纳入。全文阶段的排除原因详见流程图。

B. 研究特征

在所有研究中,卷积神经网络(Convolutional Neural Networks, CNNs)是最普遍的模型(n=11),其次是标准神经网络(Neural Networks, NNs)(n=7)、随机森林(n=4)、逻辑回归(n=4)和循环神经网络(Recurrent Neural Networks, RNNs)(n=2)。几篇论文还尝试了支持向量机(Support Vector Machine, SVM)、极限梯度提升(Extreme Gradient Boosting)、CatBoost、XGBoost、自然语言处理(Natural Language Processing, NLP)和径向基函数等独特方法。这些研究大多使用监督学习(n=17),仅一项采用无监督方法。14项研究使用了K折交叉验证,三分之二的模型基于深度学习(Deep Learning, DL)(n=21)。

数据在模态、平衡性和人口统计学方面差异很大。每个数据集的受试者中位数为265。大多数研究使用标准临床数据模态,如多普勒超声(Doppler Ultrasound, DUS)(n=5)、动脉血压(n=4)、CTA(n=4)、双功能超声(duplex ultrasound)(n=2)、踝肱指数(Ankle-Brachial Pressure Index, ABPI)(n=2)、电影血管造影(cineangiography)(n=2)、磁共振成像(Magnetic Resonance Imaging, MRI)(n=2)、趾肱指数(Toe-Brachial Index, TBI)(n=1)和6分钟步行测试(6-Minute Walk Test, 6MWT)(n=1)。其他研究关注不太标准的模态,包括电子健康记录(n=4)、PPG(n=3)、步态特征(n=2)、伤口图像(n=2)、眼底摄影(fundus photography)(n=1)、数字减影血管造影(Digital Subtraction Angiography, DSA)(n=1)和加速度计接触麦克风(n=1)。四项研究使用了可穿戴数据,三项使用了模拟虚拟受试者,若干研究采用了数据增强或去噪技术。

人口统计学报告不一致。11项研究报告了性别分布,通常平衡;五项研究的数据集分布不均,偏向男性。10项研究给出了年龄,通常跨度在50-85岁之间,六项研究专注于老年人群。仅七项研究报告了完整的PAD严重程度范围,两项研究仅检查了严重疾病。大多数研究报告了患病和健康受试者之间的平衡,但仅六项研究具有平衡的数据集,12项研究包含更多患病受试者,七项偏向健康受试者。

性能指标也各不相同。准确度最常见(n=20,中位数90% ± 7.4%),其次是灵敏度(n=16,中位数90% ± 22%)和特异度(n=16,中位数92% ± 9%)。其他报告的指标包括F1(n=4,中位数0.91 ± 0.08)、AUC(n=8,中位数0.89 ± 0.1)和精确度(n=4,中位数0.77 ± 0.05)。

C. 证据质量与偏倚风险

TRIPOD报告的中位依从性为65%,没有研究完全合规;最高为91%。常见差距包括缺乏样本量理由和缺失数据处理,仅两项研究报告了模型区分度。15项研究提供了年龄和性别数据,六项明确定义了PAD切点。然而,仅三项研究报告了回归系数,两项报告了区分度量。

使用PROBAST,16项研究被评为低偏倚风险,四项因参与者、预测因子和分析报告不足而被评为不明确。高风险评级主要归因于不平衡的数据集、过拟合处理不足、性能评估不充分或无监督方法中预测因子定义不明确。不明确评级出现在报告不足的情况下,如队列细节、纳入/排除标准、预测因子定义一致性、结果定义统一性、临床PAD参与者数量充足性或缺失数据处理。

4. 讨论

本综述批判性评估了关于AI用于PAD诊断的当前文献,建立在先前综述的基础上,并强调了高诊断准确性的潜力。与Lareyre等人和Kampaktsis等人的观点一致,本综述支持机器学习(Machine Learning, ML)工具可以改善PAD早期检测的观点,但识别出更多以诊断为重点的研究。

A. 在社区诊断中的应用

AI在社区环境中的应用可以减少医院的诊断工作量,实现更早的最佳药物治疗和更好的患者结局。若干纳入研究使用可穿戴设备收集数据,而其他研究使用可能通过智能可穿戴设备和智能手机收集的数据源,如基于血压的测量、PPG、麦克风、步态分析和成像。先前综述指出可穿戴设备和便携设备是未来方向,但主要识别了仅在临床环境中可行的方法。本综述还发现了支持社区使用的证据,如基于超声的全科医生筛查。应用于电子健康记录的AI也显示出潜力,NLP可以识别被忽视的PAD病例。最终,转诊进行专科评估仍然必要,以使用标准化方法(如超声或血管造影)进行具体诊断,这需要训练有素的临床医生。在这一路径中,AI可以在初步筛查和专科阶段提供宝贵帮助。

B. 数据集不平衡与临床信任

AI用于PAD诊断的潜力明显,应用潜力与冠状动脉疾病中已证明的应用相当。然而,进展仍受限于限制性数据集以及模型开发中透明度和报告不足。需要更大、更多样化的数据集来全面评估AI模型的潜力和稳健性。此外,提高透明度和报告对于安全临床部署和建立临床医生与模型预测之间的信任至关重要;解决Follmer等人强调的“可信AI”的许多要求。尽管这些问题在AI研究社区中已得到充分认识,但本综述强调它们尚未得到充分解决。

数据集不平衡和过拟合仍然是AI中的主要挑战,常常在明显强大的性能背后隐藏底层模型弱点。在训练过程中,模型可能偏向于最普遍的类别,导致对少数类别特征的学习不足。这可能产生高整体准确度但对不常见病例检测差。在PAD中,尤其是早期疾病,此类误识别可能非常有害。性别和疾病严重程度进一步复杂化了AI模型在临床环境中的性能评估。本综述中的许多研究未考虑PAD中的性别特异性差异,这可能导致模型对一种性别表现良好而对另一种表现差。类似地,主要在中度至重度PAD患者上训练的模型可能难以检测早期疾病,尤其是在 underrepresented 群体中,如女性或年轻人。此外,如果测试集反映与训练集相同的不平衡,模型可能显得有效,但实际上缺乏超出数据中特定人群的泛化性。

尽管一些研究尝试了缓解策略(如K折交叉验证),但这种方法并未完全解决类别不平衡问题。其他技术包括数据增强,可以通过增加少数类别的表示来减少过拟合并提高模型稳健性。对于基于图像的数据,增强可能涉及几何变换(如翻转、缩放和旋转)、颜色调整(如亮度、灰度和饱和度修改)或添加噪声(如椒盐噪声)。Sasikala等人使用合成少数过采样技术生成少数类别的示例,有助于减少其数据集中的过拟合。虚拟受试者也可能提供有价值的策略,使得能够结合体内和硅数据训练和测试ML模型。这些可用于填充少数类别或提高模型稳健性。虚拟受试者数据集允许在受控条件下快速生成受试者,并可以捕获没有体内数据固有错误的测量。

即使有了改进的数据集和报告良好的模型,临床医生仍然需要信任和理解数据如何被解释,特别是在灵敏度和特异度方面。本综述中识别的模型与临床参考标准显示出良好的一致性,百分比误差和预测准确度与ABPI(10-15%误差)和DUS(9-10%误差)相当。模型决策的可视化表示可以进一步加强信任。例如,De Fauw等人展示了一种技术,可以分割、标记并为视网膜疾病特征分配置信水平;这种方法可以在特别具有挑战性的病例中支持临床医生。还需要后续研究来确定使用AI模型进行早期诊断是否转化为改善的患者结局。尽管几位作者强调了这一要求,但未识别出纳入文章的后续研究。

C. 未来方向

本综述重点介绍了几项特别值得进一步研究的研究,因为它们进行良好,遵守了TRIPOD声明,并使用了易于在社区收集的数据进行初步筛查。例如,Allen等人证明趾PPG信号与ABPI测量显示出强烈一致性,并且在检测轻度至中度PAD方面特别有效。Kim等人专注于踝和肱动脉的血压,表明ML分析可以通过利用全脉搏波形态而不仅仅是收缩压来诊断PAD和评估严重程度,提供了对ABPI的改进。Jones等人推荐使用可穿戴设备,应用轻量级ML方法评估腿部血压,使该方法适用于简单设备。类似地,Forghani等人发现连续脉搏波数据包含比ABPI更丰富的诊断信息,而基于臂袖带的数据收集不需要事先培训,可以轻松集成到可穿戴设备中。

然而,大多数研究中使用的数据集在疾病类型、种族、年龄和性别方面范围狭窄,这限制了结果的泛化性。尽管如此, reviewed 研究显示出检测下肢动脉疾病的强大潜力,模型在检测PAD方面表现出高灵敏度。全面和透明的报告仍然至关重要,在开发过程中使用TRIPOD等标准,同时遵守更广泛的AI指南,如欧盟AI法案和FDA的行动计划和指导原则。

采用AI驱动的诊断工具也与英国的Darzi报告中的建议一致,该报告是为回应NHS因激增的等待名单和恶化的公共健康而处于危急状态的发现而编写的。全球面临类似挑战,加强社区医疗和预防已被确定为关键策略。将AI算法集成到可穿戴技术中可以帮助确定症状是否归因于PAD,从而减少不必要的转诊至三级护理,减轻临床工作量,并支持早期干预。总体而言, reviewed 研究表明,ML模型可以在早期阶段检测PAD,报告的诊断置信度在88-91%之间。未来的进展将取决于工程和临床社区之间的合作,遵守TRIPOD和PROBAST等报告标准,以及系统后续研究以将诊断准确性与改善的患者结局联系起来。

5. 结论

AI方法用于PAD诊断在广泛的输入参数和模态中显示出有希望的性能。它们整合到临床工作流程中可以支持早期诊断,从而更好地管理PAD患者。然而,大多数现有研究受限于小、不平衡或同质化数据集以及模型报告透明度不足。未来研究应专注于使用反映一般人群的大规模、异质化数据集开发和验证的报告良好、透明的模型。还需要后续研究以评估真实世界的临床效用并解决实施障碍,特别是在社区环境中。最终,遵守TRIPOD和PROBAST等报告标准,以及与新兴监管框架(如欧盟AI法案和FDA指南)保持一致,对于确保这些技术的可信、安全和有效临床采用至关重要。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号