基于机器学习模型和可解释算法的糖尿病周围血管疾病及糖尿病足的预测模型与风险因素识别方法
《Medicine & Science in Sports & Exercise》:The predictive model and risk factor identification for peripheral vascular disease and diabetic foot in diabetes based on machine learning models and explainable algorithms
【字体:
大
中
小
】
时间:2025年10月07日
来源:Medicine & Science in Sports & Exercise 3.9
编辑推荐:
糖尿病并发症预测模型研究显示,通过机器学习(如随机森林、支持向量机、梯度提升树和遗传神经网络算法)结合SHAP解释性分析,确定了17个关键预测指标,包括纤维蛋白原、C反应蛋白、糖化血红蛋白等。遗传神经网络模型(GA-BPNN)在糖尿病合并DPVD(AUC=0.79)和DPVD合并DF(AUC=0.89)的分类任务中表现最优,验证了多维度临床参数整合的预测价值,为早期干预提供依据。
糖尿病是全球范围内影响人类健康的慢性系统性代谢疾病之一,其并发症对患者的生活质量产生严重影响,其中糖尿病外周血管疾病(DPVD)和糖尿病足(DF)尤为突出。这两类疾病不仅可能导致残疾,还可能引发严重的后果,如肢体缺血、坏死甚至截肢。为了解决这些问题,本研究通过收集1240名患有2型糖尿病及其并发症的患者数据,利用机器学习方法构建预测模型,旨在提高对糖尿病相关并发症的识别能力和风险评估的准确性。研究过程中采用了多种数据预处理方法,包括去除严重数据缺失的样本,并利用MICEforest进行数据插补,以确保数据的完整性和质量。随后,通过随机森林(RF)、支持向量机(SVM)、反向传播神经网络(BPNN)、极端梯度提升(XGBoost)以及SHapley Additive exPlanation(SHAP)等算法对27项指标的重要性进行排序。基于熵权法,对所有指标进行了综合赋权,最终确定了对糖尿病并发症具有重要影响的17项关键指标。研究还引入了遗传神经网络算法(GA-BPNN)作为预测模型,以构建一个高效的糖尿病并发症识别系统。同时,通过SHAP算法进一步分析了每个风险因素在预测模型中的权重和重要性排名,以提高模型的可解释性。
研究结果表明,GA-BPNN在糖尿病与DPVD(G1)和DPVD与DF(G2)两个分类任务中均表现出最佳的预测性能。在G1组中,该模型的AUC值为0.79,准确率为0.78,F1分数为0.77;在G2组中,AUC值达到0.89,准确率为0.80,F1分数为0.83。这些指标的高数值表明,GA-BPNN在识别糖尿病并发症方面具有较高的灵敏度和特异性。此外,假设检验结果显示,纤维蛋白原和C反应蛋白等指标在不同组别间存在显著差异,这进一步说明了这些指标在识别糖尿病并发症中的重要性。SHAP特征重要性分析也强调了这些指标在预测模型中的显著影响。
在特征选择方面,本研究结合了综合加权方法和SHAP分析,以确定对糖尿病并发症识别影响最大的关键特征。这一过程优化了特征集,减少了噪声干扰,最终构建了一个更加准确和高效的预测模型。通过综合加权方法,研究团队识别了在糖尿病和DPVD以及DPVD和DF两个分类任务中最具影响力的指标,并将其作为模型输入。同时,研究团队还结合了临床专家的意见,以确保所选指标的科学性和临床实用性。
研究还通过热图分析可视化了不同变量之间的相关性,展示了糖尿病并发症的潜在影响因素。例如,在G1组中,高敏C反应蛋白和纤维蛋白原之间存在显著的正相关性,表明这些指标在糖尿病相关并发症的发病机制中可能扮演重要角色。此外,G2组中低密度脂蛋白胆固醇(LDL-C)与总胆固醇之间存在显著的正相关性,这表明血脂水平在糖尿病足的发病中具有重要意义。这些发现不仅有助于理解糖尿病并发症的病理机制,还为未来的临床干预提供了理论依据。
为了评估模型的性能,研究团队对五种分类算法进行了比较分析,包括BPNN、XGBoost、SVM、RF和GA-BPNN。结果显示,GA-BPNN在两个分类任务中均优于其他传统模型,其准确率、AUC值和F1分数均较高。此外,模型的可解释性分析表明,GA-BPNN能够通过SHAP分析揭示模型决策的基础,提高模型的可信度和实用性。这为临床医生提供了更清晰的决策支持,使他们能够更好地理解模型的预测结果,并据此采取更有效的干预措施。
在实际应用中,该模型能够有效识别高风险患者,为早期干预提供依据。通过监测关键风险因素,如纤维蛋白原、C反应蛋白、平均血小板体积等,可以及时发现糖尿病并发症的早期迹象,从而降低其发生率。同时,模型还考虑了糖尿病相关的指标,如糖化血红蛋白(HbA1c)和发病时间,以及非糖尿病相关的指标,如高血压、体重指数(BMI)等,确保了模型的全面性和准确性。
研究的局限性包括其回顾性设计和缺乏外部验证,这可能影响模型的泛化能力。此外,研究中未纳入一些重要的行为因素,如详细的吸烟史和运动习惯,这些因素可能对糖尿病并发症的发生有重要影响。未来的研究可以进一步整合这些数据,以提高模型的预测能力。同时,由于缺乏入院前的用药史数据,无法量化特定治疗对风险的独立影响,这也是一个需要改进的方向。未来的研究可以结合更详细的纵向电子健康记录数据,以分析治疗与风险之间的关系。
本研究的成果不仅为糖尿病并发症的预测提供了新的方法,也为临床实践提供了有力的工具。通过构建一个基于机器学习和可解释算法的综合预测模型,研究团队能够更准确地识别高风险患者,并揭示潜在的影响因素。这有助于医生在早期阶段采取干预措施,从而减少糖尿病并发症的发生。同时,模型的可解释性分析也使得预测结果更具临床意义,能够为患者和医生提供更具体的指导,促进个性化医疗的发展。
此外,研究还强调了模型在实际应用中的重要性。通过分析真实患者的样本数据,研究团队确保了模型的可靠性和临床可行性。这不仅有助于提高糖尿病并发症的识别能力,还为未来的医疗决策提供了科学依据。在糖尿病管理中,早期识别和干预是减少并发症的关键,而本研究提出的预测模型有望在这一方面发挥重要作用。
总的来说,本研究通过综合加权方法和SHAP分析,成功筛选出17项关键指标,并构建了一个高效的预测模型。该模型在糖尿病和DPVD以及DPVD和DF的分类任务中均表现出色,能够有效识别高风险患者,并揭示潜在的预测因素。研究还结合了临床专家的意见,确保了模型的科学性和实用性。通过这一研究,糖尿病患者可以得到更准确的风险评估,从而采取更有效的预防和干预措施,减少并发症的发生,提高生活质量。未来的研究可以进一步优化模型,整合更多行为和环境因素,以提高其预测能力和临床应用价值。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号