儿童高剂量甲氨蝶呤治疗中排泄延迟的风险因素识别:基于真实世界数据的机器学习分析
《Frontiers in Pharmacology》:Risk factor identification for delayed excretion in pediatric high-dose methotrexate therapy: a machine learning analysis of real-world data
【字体:
大
中
小
】
时间:2025年09月18日
来源:Frontiers in Pharmacology 4.8
编辑推荐:
儿童高剂量甲氨蝶呤(HDMTX)治疗中,基于真实世界数据构建XGBoost预测模型,通过LASSO、随机森林和SVM-RFE筛选出血清肌酐、总剂量、碱性磷酸酶等8个关键风险因素,模型AUC达0.842,临床决策曲线分析显示显著优势,并开发了在线辅助工具。
本研究旨在利用真实世界数据,识别接受高剂量甲氨蝶呤(HDMTX)治疗的儿童患者中导致甲氨蝶呤延迟排泄的风险因素,并开发和评估一个预测模型。甲氨蝶呤作为一种广泛应用于血液系统恶性肿瘤治疗的重要药物,尤其在急性淋巴细胞白血病(ALL)和非霍奇金淋巴瘤(NHL)的初始化疗中发挥关键作用。然而,HDMTX的高剂量特性也使其在治疗过程中伴随显著的毒性风险,如肝肾功能损伤、骨髓抑制、黏膜炎、胃肠道反应等。这些毒性事件的发生与甲氨蝶呤的延迟排泄密切相关,因此准确预测延迟排泄的发生对于优化治疗方案、降低不良反应发生率具有重要意义。
在实际临床工作中,HDMTX治疗的个体化管理需要依赖对患者生理状态的全面评估,以及对药物代谢过程的深入了解。传统上,研究者主要通过线性回归等统计学方法筛选风险因素并构建预测模型,但这些方法在处理复杂、非线性的数据关系时存在局限。近年来,随着机器学习技术的发展,越来越多的研究开始探索其在药物代谢预测中的应用价值。本研究通过引入LASSO回归、随机森林(RF)和支持向量机递归特征消除(SVM-RFE)等机器学习方法,对大量临床数据进行分析,从而识别出与延迟排泄密切相关的关键预测变量,并构建了多个预测模型。最终,通过Bootstrap方法对模型进行内部验证,选择了表现最佳的XGBoost模型,并借助SHAP(SHapley Additive exPlanations)技术对模型的预测机制进行了深入解析,以增强其在临床中的可解释性和实用性。
研究纳入了来自南京医科大学附属儿童医院2021年至2023年间接受HDMTX治疗的1,485个化疗周期,覆盖了408名年龄在0至16岁之间的儿童患者。其中,有26.1%的患者出现了延迟排泄现象,表明该问题在临床中具有一定的普遍性。研究发现,血清肌酐(Scr)、总药物剂量(Dose)、碱性磷酸酶(ALP)、肌酸激酶(CK)、血尿素氮(Urea)、γ-谷氨酰转移酶(GGT)、血红蛋白(HB)以及身高是影响延迟排泄的关键预测因素。这些变量涵盖了患者的生理状态、药物使用情况以及实验室检查结果等多个维度,反映了甲氨蝶呤排泄延迟的多因素影响机制。
为了评估不同预测模型的性能,研究团队使用了逻辑回归(LR)、朴素贝叶斯(NB)、支持向量机(SVM)和XGBoost四种算法,并通过Bootstrap方法进行了内部验证。结果显示,XGBoost模型在所有评估指标中表现最佳,其准确率为0.780,F1得分为0.669,受试者工作特征曲线(ROC)下的面积(AUROC)达到0.842,而布里尔分数(Brier Score)为0.136。这些指标表明,XGBoost模型不仅在预测能力上优于其他模型,而且在临床适用性方面也具有显著优势。此外,决策曲线分析(DCA)进一步证明了该模型在实际临床决策中的价值,尤其是在不同的风险阈值范围内,XGBoost模型的净获益值最大,说明其在优化治疗策略方面的潜力。
为了提升模型的临床应用价值,研究团队还开发了一个基于Web的预测工具,允许临床医生输入患者的八个关键预测变量,从而获得甲氨蝶呤延迟排泄的个体化风险预测。该工具通过瀑布图和力图(Force Plot)的形式直观展示各个变量对预测结果的贡献,增强了医生对模型输出的理解和信任。例如,当输入变量中Scr值较高、MTX剂量较大、ALP值较低时,模型预测的延迟排泄风险相应增加。相反,当Scr值较低、MTX剂量较小、ALP值较高时,延迟排泄的风险则较低。这一发现与既往研究结果一致,也符合甲氨蝶呤主要通过肾脏排泄的生理机制。
在模型解释方面,SHAP分析提供了对各个预测变量影响程度的定量评估。通过特征贡献分析、特征重要性排序图以及特征依赖图,研究团队能够更清晰地理解XGBoost模型如何根据输入数据进行预测。例如,SHAP值显示Scr对预测结果的影响最为显著,而总剂量和ALP则次之。这些结果提示,在临床实践中,Scr水平是评估甲氨蝶呤延迟排泄风险的首要指标。此外,研究还发现,CK、Urea和GGT对预测结果的影响相对较小,但其非线性关系仍然值得关注。例如,CK水平低于正常范围时,可能与患者的年龄或营养状况有关,而当CK超过一定阈值后,其对延迟排泄的影响则变得更为显著。类似地,Urea水平低于正常参考值时,可能预示着肾功能异常,从而增加甲氨蝶呤的延迟风险。GGT水平异常则可能与肝脏功能受损相关,进一步影响药物代谢过程。
值得注意的是,HB和身高对预测模型的贡献相对较低,但它们的特征依赖图仍然揭示了一些潜在的临床关联。例如,HB水平较低可能与患者是否存在贫血或营养不良有关,而身高低于150厘米的儿童对延迟排泄的风险影响较小,而身高超过150厘米的患者则表现出更高的风险。这种非线性关系可能反映了不同身高儿童在药物代谢能力上的差异,以及基于体表面积(BSA)调整剂量时的复杂影响。然而,研究也指出,这些变量之间的关系仍需进一步验证,尤其是在不同人群中的适用性。
本研究的另一个重要贡献在于构建了一个用户友好的预测工具,该工具不仅能够提供个体化的风险预测,还能通过可视化手段帮助临床医生更直观地理解模型的决策依据。这种工具的应用将有助于在临床实践中实现更精准的治疗管理,从而降低甲氨蝶呤延迟排泄带来的不良反应风险。此外,该模型的开发和应用也体现了机器学习技术在医学领域中的巨大潜力,尤其是在处理高维、非线性数据方面,相较于传统统计方法,机器学习模型能够更好地捕捉复杂的生物医学关系。
尽管本研究取得了一定的成果,但仍存在一些局限性。首先,研究未纳入药物相互作用的数据,因为潜在相互作用药物的使用率较低,这可能反映了临床中对药物相互作用的重视。其次,由于研究采用的是回顾性数据,部分关键变量如尿液输出量、尿液pH值以及基因多态性等未能纳入分析,这可能会影响模型的预测准确性。例如,尿液输出量和pH值在甲氨蝶呤排泄过程中起着重要作用,而这些因素的缺失可能导致模型对某些特定情况的预测能力不足。此外,标准化的水化、尿液碱化以及叶酸类药物的使用也是HDMTX治疗的重要组成部分,但由于这些变量在本研究中未被纳入,可能会影响模型的全面性。
总体而言,本研究通过整合真实世界数据与机器学习技术,成功构建了一个具有较高预测性能的甲氨蝶呤延迟排泄风险模型,并为临床医生提供了实用的预测工具。该模型的建立不仅有助于早期识别高风险患者,还为个体化治疗决策提供了科学依据,从而在提高治疗安全性的同时,优化治疗方案的实施效果。未来的研究可以进一步拓展该模型的应用范围,通过多中心前瞻性研究,纳入更多影响因素,以提高模型的普适性和准确性。同时,随着人工智能和大数据技术的不断发展,这类预测模型有望在临床实践中发挥更大的作用,为精准医疗和个体化治疗提供强有力的支持。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号