预测蛛网膜下腔动脉瘤出血患者发生下肢深静脉血栓形成的风险:一项机器学习研究

《Frontiers in Neurology》:Predicting lower extremity deep venous thrombosis in patients with aneurysmal subarachnoid hemorrhage: a machine learning study

【字体: 时间:2025年11月24日 来源:Frontiers in Neurology 2.8

编辑推荐:

  LEDVT预测模型在aSAH患者中的应用:基于XGBoost的机器学习模型通过整合年龄、白蛋白、D-二聚体、GCS评分、MCA动脉瘤及AISI炎症指标,在内外部验证中表现优异(AUC 0.88/0.80),并开发了在线风险计算器以辅助临床决策。

  本研究聚焦于一种在脑动脉瘤破裂后常见且严重的并发症——下肢深静脉血栓(LEDVT),旨在开发并验证基于机器学习(ML)的模型,以早期预测这类患者发生LEDVT的风险。随着医学技术的进步,脑动脉瘤的治疗方式不断优化,特别是内血管治疗(EVT)因其微创性及对术后生活质量的改善,已成为一线治疗选择。然而,尽管治疗手段不断升级,LEDVT这一并发症依然难以完全避免,且其发生率较高,可能对患者康复造成严重影响,甚至引发肺栓塞(PE)等致命性后果。因此,准确识别高风险患者并采取针对性预防措施,成为临床管理中的重要环节。

传统的LEDVT风险评估工具,如Caprini评分,虽然在某些情况下具有一定的预测价值,但其对aSAH患者适用性存在局限。例如,Caprini评分依赖于患者的年龄、BMI及病史等信息,而aSAH患者往往因病情严重需要长期卧床,BMI的测量变得困难,从而影响评分的准确性。此外,该评分体系并未纳入评估aSAH严重程度的关键指标,如格拉斯哥昏迷评分(GCS)、Hunt-Hess分级和Fisher分级,这使得其在aSAH患者中的预测效果受到限制。为弥补这一不足,近年来学者们尝试引入更多炎症和临床相关的预测变量,如中性粒细胞与淋巴细胞比值(NLR)、系统免疫炎症指数(SII)、系统炎症反应指数(SIRI)、以及系统性炎症综合指数(AISI)等。这些指标反映了aSAH后机体炎症反应的复杂性,为LEDVT风险评估提供了新的视角。

在此背景下,本研究通过回顾性多中心研究,构建了一种基于机器学习的预测模型,并对其进行了内部和外部验证。研究共纳入593名aSAH患者作为内部队列,以及142名患者作为外部验证队列。在变量筛选过程中,首先采用最小绝对收缩和选择算子(LASSO)回归方法,从37项临床和实验室变量中筛选出六个具有显著预测价值的变量:年龄、白蛋白水平、D-二聚体、GCS评分、AISI指数以及大脑中动脉(MCA)动脉瘤的存在。这些变量随后被用于构建多变量逻辑回归模型,并作为机器学习模型的输入特征。研究团队对七种机器学习算法(包括XGBoost、LightGBM、随机森林、逻辑回归、支持向量机、K近邻和多层感知器)进行了训练和评估,其中XGBoost在内部验证中表现最佳,AUC值达到0.88;在外部验证中,其AUC值为0.80,表明模型具有良好的泛化能力。

模型的构建过程采用了五次五折交叉验证,以确保其稳定性和可靠性。通过分析每个模型的AUC值、敏感度、特异度、F1分数和Kappa值,XGBoost在所有模型中脱颖而出,显示出更强的预测能力。此外,研究团队使用SHAP(Shapley Additive exPlanations)方法对模型的可解释性进行了深入探讨,揭示了D-二聚体、白蛋白和GCS评分是影响LEDVT风险的关键因素。SHAP分析不仅帮助理解模型的决策机制,也为临床医生提供了更直观的变量贡献度评估,从而增强模型在实际应用中的可信度和实用性。

在模型的应用层面,研究团队开发了一个基于Web的在线风险计算器,使临床医生能够便捷地输入患者的基本信息和实验室数据,快速获得LEDVT风险预测结果。例如,一名65岁、GCS评分为8、白蛋白水平为34.6 g/L、D-二聚体水平为2.36 μg/ml、AISI指数为4589且存在MCA动脉瘤的患者,被模型预测为LEDVT高风险(概率为50%),提示应优先考虑抗凝治疗。而另一名55岁、GCS评分为13、白蛋白水平为36.9 g/L、D-二聚体水平为2.68 μg/ml、AISI指数为3560且无MCA动脉瘤的患者,则被预测为低风险(概率为3.6%),说明其无需采取强烈的预防措施。通过这种可视化工具,医生能够更直观地评估患者的个体风险,并据此制定相应的干预策略。

值得注意的是,本研究不仅关注模型的预测能力,还强调了其在临床中的实际应用价值。由于LEDVT在aSAH患者中的发生率约为10%至25%,其对治疗成本、住院时间和患者预后均产生显著影响。因此,开发一个能够准确识别高风险个体的预测工具,有助于优化资源分配、减少不必要的预防措施,并提升患者的整体护理质量。此外,模型的外部验证结果表明,尽管在外部数据集中的AUC值有所下降(从0.88降至0.80),但其预测性能依然保持较高水平,说明该模型具有一定的跨机构适用性。

在模型的构建过程中,研究团队特别关注了变量选择的科学性和临床实用性。传统的统计模型如逻辑回归(LR)虽然具有较高的可解释性,但在处理复杂、非线性以及多变量关系时存在一定的局限性,容易受到多重共线性和数据不均衡的影响。相比之下,机器学习模型能够更好地处理高维数据,捕捉变量间的非线性关系,并在一定程度上缓解数据不平衡带来的预测偏差。然而,由于LEDVT在患者群体中仅占10.8%,模型在敏感度方面的表现仍存在一定挑战。因此,研究团队通过合成少数类过采样技术(SMOTE)进行了敏感性分析,以改善模型对少数类的识别能力,但最终仍选择保留原始模型,因其在特异度和AUC-ROC方面表现更优,更适合作为高特异度的筛查工具。

模型的可解释性是其在临床应用中的关键优势之一。SHAP分析不仅提供了变量对预测结果的贡献度,还帮助医生理解模型的决策过程。例如,研究发现,较高的D-二聚体和AISI指数、较低的白蛋白水平和GCS评分,以及MCA动脉瘤的存在,均与LEDVT风险显著相关。这些变量的组合使得模型在预测LEDVT时具有较高的准确性和稳定性,同时避免了因过多变量带来的复杂性。此外,AISI作为一项综合炎症指标,通过整合中性粒细胞、单核细胞、血小板和淋巴细胞等参数,能够更全面地反映系统性炎症状态,为LEDVT风险评估提供了新的维度。

尽管本研究取得了一定成果,但其仍存在一些局限性。首先,由于研究采用回顾性数据,可能存在选择偏差和未测量的混杂因素,影响模型的可靠性。其次,数据主要来源于中国国内的两个医疗中心,可能无法充分反映不同地区或种族的临床差异,从而限制了模型的广泛适用性。此外,外部验证队列的规模相对较小(n=142),这可能影响模型性能评估的稳定性。最后,本模型仅预测了术后30天内的LEDVT风险,但部分患者可能在更长的随访期间仍存在血栓风险,尤其是在长期卧床或存在其他持续性风险因素的情况下。因此,未来的研究应考虑扩大数据来源,采用前瞻性研究设计,并探索模型对长期风险的预测能力。

综上所述,本研究通过机器学习方法,构建了一个能够有效预测aSAH患者LEDVT风险的模型,并验证了其在不同医疗中心的适用性。该模型的开发不仅填补了现有风险评估工具的不足,也为临床医生提供了更精准的风险分层工具,有助于制定个体化的预防策略。同时,模型的可解释性分析和在线风险计算器的实现,进一步提升了其在临床实践中的实用价值。未来的研究可以进一步优化模型的变量选择,提升其对少数类患者的识别能力,并通过多中心数据的整合,提高模型的普适性和稳定性。这将有助于推动机器学习在神经外科并发症预测中的应用,为患者提供更精准、个性化的医疗服务。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号