英格兰哮喘成人心血管疾病一年风险预测模型
《Pragmatic and Observational Research》:One Year Risk Prediction Model for Cardiovascular Disease for Adults with Asthma in England
【字体:
大
中
小
】
时间:2025年11月19日
来源:Pragmatic and Observational Research 2.7
编辑推荐:
心血管疾病风险预测在哮喘患者中研究不足。本研究基于英国641万哮喘患者电子健康记录数据,对比了逻辑回归、随机森林和梯度提升机等5种机器学习模型的预测性能。结果显示,惩罚逻辑回归模型在分类精度(AUC=0.85)上最优,梯度提升机在校准上更优。决策曲线分析表明,两者在8%阈值下均可减少52%的无效治疗。最终推荐惩罚逻辑回归因其简单性和临床实用性。
心血管疾病(CVD)一直是全球人类健康的重要威胁,并对医疗体系构成了重大负担。目前,利用机器学习(ML)模型对哮喘患者的CVD风险进行预测的研究仍然非常有限。本研究旨在探讨不同机器学习算法在哮喘患者中的应用,以构建一个高特异性的CVD风险预测模型。研究涵盖了641,042名参与者,数据来源于常规收集的电子健康记录(EHR),并评估了多种算法的性能,包括逻辑回归、惩罚性逻辑回归、决策树、随机森林和梯度提升等。
研究结果表明,惩罚性逻辑回归模型在区分能力方面表现最佳,且是最简单的分类模型,其AUC值为0.85。梯度提升模型则在预测校准方面表现更优,其预测概率与实际发生率之间的匹配程度较高。所有模型中,患者既往的CVD事件数量是最重要的预测因子,其次是年龄和与心血管药物相关的处方信息。单独使用前10个预测因子即可获得合理的预测能力(AUC = 0.66),这表明在实际应用中,简化模型可能具有更大的可行性。
本研究构建了一个新的预测模型,用于预测哮喘患者在诊断后一年内发生CVD的风险,尤其针对50岁以上的患者。这一模型具有较高的准确性,能够有效地筛选出低风险患者,同时保持可接受的敏感性。在8%的预测概率阈值下,两种模型均能减少约52%的不必要的治疗干预,相较于传统统计模型,机器学习模型的预测效果更佳。该研究的独特贡献在于,基于回归和机器学习方法,构建了从哮喘诊断后12个月内预测CVD的模型,并通过合适的统计指标(如AUC和校准)比较了模型的准确性,以确定最佳模型。
在方法学上,本研究使用了CPRD Aurum数据库,该数据库包含超过4500万患者的匿名化纵向电子健康记录。通过将CPRD数据与医院事件统计数据(HES)和国家统计局死亡登记数据进行链接,研究人员获得了更为全面的数据集。研究队列定义为2010年1月至2019年12月期间,首次被记录为哮喘诊断的患者。为了确保模型的稳健性,研究人员排除了既往有CVD事件或COPD病史的患者,并进行了敏感性分析。
在特征选择方面,研究综合了多种临床变量,包括年龄、性别、地理区域、哮喘加重次数、SABA(短效β激动剂)和ICS(吸入性糖皮质激素)处方数量、是否接受哮喘相关的GP检查、与心血管疾病相关的药物使用情况、既往疾病史(如过敏、胃食管反流病、慢性阻塞性肺疾病、糖尿病、焦虑和抑郁)以及高血压和流感疫苗接种情况。此外,还考虑了吸烟和 vaping( vaping 等同于电子烟)状态。这些变量的纳入基于临床经验和相关文献的支持。
在机器学习算法的评估中,研究人员采用了多种模型,并通过网格搜索和五折交叉验证对超参数进行了优化,以提高模型的AUC值。尽管使用了类权重来应对数据不平衡问题,但并未显著改善AUC值。所有模型在使用所有特征时均表现出相似的性能,而在使用前10个最重要的特征时,模型的预测能力也保持较高水平。对于惩罚性逻辑回归模型,其在使用所有特征时达到了完美的校准(CITL = 0.00,斜率 = 1.00),这表明其预测结果与实际发生率高度一致。
从临床实用性角度来看,决策曲线分析(DCA)提供了模型在不同预测概率阈值下的净效益评估。在8%的阈值下,惩罚性逻辑回归和梯度提升模型均实现了约52%的干预减少,同时未遗漏任何CVD事件。这表明,这两种模型在实际应用中能够有效减少不必要的医疗检查和治疗,从而提高资源利用效率。然而,模型的可解释性仍然是一个关键考量因素,特别是在临床实践中,医生更倾向于使用简单且透明的模型,而非复杂的“黑箱”模型。
在模型性能评估中,研究还关注了校准曲线,以确保预测结果与实际发生率之间的匹配。校准曲线显示,对于不平衡数据集,惩罚性逻辑回归和梯度提升模型的校准效果较好,但梯度提升模型在预测校准方面略胜一筹。然而,惩罚性逻辑回归模型因其结构简单和解释性强,可能更适合实际应用。相比之下,梯度提升模型虽然在预测精度上更具优势,但其复杂性和较低的可解释性可能限制了其在临床环境中的广泛使用。
此外,研究还强调了模型的泛化能力。由于数据来源于英国的特定医疗系统,其结果可能无法直接应用于其他国家或地区。为了提高模型的适用性,研究人员建议与其他医疗数据库进行合作,并开展前瞻性研究以验证模型的稳定性。同时,外部验证的实施将有助于进一步确认模型的推广价值,确保其在不同人群中的有效性。
本研究的成果具有重要的临床意义。通过构建和验证机器学习模型,研究人员为哮喘患者提供了一个新的风险预测工具,能够在诊断后一年内有效识别CVD风险。这一工具不仅有助于优化医疗资源的分配,还能减少不必要的检查和治疗,提高患者管理的效率。然而,模型的实施仍面临诸多挑战,包括提高透明度、加强临床验证以及促进跨学科合作,以确保其在医疗体系中的实际应用。
在模型的可解释性方面,惩罚性逻辑回归模型因其系数的直接可解释性而具有明显优势。相比之下,梯度提升模型虽然在处理复杂交互和非线性关系方面表现更佳,但其内部机制较为复杂,难以直观理解。因此,在实际应用中,可能需要构建替代模型(如基于逻辑回归的模型)来提高机器学习模型的可解释性,同时保持其预测能力。
总的来说,本研究展示了机器学习在预测哮喘患者CVD风险方面的潜力,特别是在处理大规模、复杂的医疗数据时。然而,模型的实施需要考虑其可解释性、临床适用性和数据来源的多样性。未来的研究应进一步探索模型的优化方法,并验证其在不同人群和医疗环境中的有效性,以推动其在实际医疗决策中的应用。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号