《Archives of Gerontology and Geriatrics》:Mortality prediction among older people in primary care: a comparison of predictive performance of the frailty index with regression-based and machine learning models
编辑推荐:
衰老指数与回归、机器学习模型在预测老年人死亡率及痴呆亚组表现差异的研究。通过分析35万社区老年人电子健康数据,发现基于单一体弱缺陷的回归和机器学习模型(AUC-ROC 0.828-0.824)较传统衰老指数(0.793-0.804)预测性能更优,但后者更易临床应用。痴呆亚组模型性能显著下降(AUC-ROC 0.678-0.704)。
作者:Collin JC Exmann、Karlijn J Joling、Robert Verheij、Iris van der Heide、Hein PJ van Hout、Emiel O Hoogendijk
研究机构:阿姆斯特丹大学医学中心(Amsterdam UMC)全科医学系,地址:Meibergdreef 9(AMC所在地),邮编1105AZ,阿姆斯特丹,荷兰
摘要
引言
虚弱指数被广泛用于识别有死亡等不良后果风险的脆弱人群。然而,与其他死亡率预测模型相比,尤其是在痴呆症患者等亚群体中,其预测性能尚未得到充分研究。本研究旨在比较虚弱指数与基于回归的模型和机器学习模型在预测社区居住的老年人死亡率方面的表现,并测试其在痴呆症亚群体中的性能。
方法
我们选取了355,958名60岁及以上的社区居住成年人,这些人的电子健康记录(EHR)与死亡登记数据相关联。我们使用包含36项指标的虚弱指数建立了1年和5年的死亡率预测模型,并将包含虚弱指数的回归模型与两种类型的回归模型和两种类型的机器学习模型进行了区分度和校准性比较。最后,我们在6,394名痴呆症患者中评估了这些模型的性能。
结果
虚弱指数模型的表现中等,1年和5年死亡率的AUC-ROC分别为0.793和0.804。而使用单一健康缺陷作为预测变量的其他模型,其AUC-ROC最高可达0.828和0.824,且校准性良好。总体而言,这些模型在痴呆症亚群体中的表现较差,AUC-ROC介于0.678至0.704之间。
讨论
使用单一虚弱缺陷的基于回归和机器学习的预测模型在预测1年和5年死亡率方面优于虚弱指数。然而,这些模型可能更为复杂且难以解释。我们发现这些模型在痴呆症患者中的表现较差,表明它们在该亚群体中的适用性较低。
引言
全球范围内,老龄化人口给医疗系统带来了挑战,因为老年人通常患有多种疾病,护理需求也比年轻人更高(Moffat和Mercer,2015;Vollset等人,2024)。为了提供适当的护理并将护理资源分配给最需要的人,准确识别出有死亡等不良后果风险最高的人群至关重要。预测模型或评分可以帮助专业人士进行风险分层(Hunik等人,2025;Mistry,2019)。虚弱指数就是一个广泛使用的评分工具,已被证明能够预测死亡率(Kim等人,2022)。虚弱指数基于缺陷累积理论,即多个器官系统的缺陷会随着年龄增长而累积,最终导致不良后果(Searle等人,2008;Theou等人,2023;Hoogendijk等人,2019)。最近一项关于死亡率预测模型的系统评价发现,基于虚弱指数的模型表现不如其他类型的预测模型(Exmann等人,2024)。然而,该系统评价中包含的研究基于不同的人群和数据集,使得结果难以直接比较。
少数比较虚弱指数与其他类型预测模型在同一数据集中的预测性能的研究得出了混合结果。一项研究将包含40项指标的虚弱指数与神经网络(机器学习模型)进行了比较,发现基于相同变量的神经网络具有更好的区分度(Song等人,2004)。另一项使用相同变量的比较研究也发现预测模型的性能优于虚弱指数(Shi等人,2020)。不过,在一项研究中,尝试对虚弱缺陷进行加权处理并未提高预测性能;而在另一项研究中,对包含死亡率的综合结果进行加权处理后,预测性能有所改善(Pe?a等人,2014)。
当虚弱指数被用作不良后果的预测工具以及筛选工具来选择需要进一步评估和干预的个体时,其预测价值就变得重要起来。例如,一些国家已在初级保健中实施了电子虚弱指数筛查系统(Clegg等人,2016;Vetrano等人,2023)。从方法论角度来看,预测工具应遵循如TRIPOD声明中所述的预测指南,但虚弱指数更注重各项缺陷的等重要性。我们假设通过对这些缺陷进行加权处理,可以提升其筛查和预测效果(Hoogendijk等人,2019;Collins等人,2015)。
最后,虚弱指数在特定临床亚群体(如痴呆症患者)中的预测性能仍不确定。在针对痴呆症患者的专家建议中,明确提到了虚弱指数作为一种识别高风险人群并指导护理决策的方法(Borda等人,2025)。然而,支持这一建议的实证证据较少。
尽管研究表明虚弱与痴呆症患者的死亡率相关(Kelaiditi等人,2016;Haaksma等人,2019),但这些研究规模较小,且尚未充分评估虚弱指数在该亚群体中的预测性能。
本研究的目的是比较虚弱指数与两种类型的回归模型和两种类型的机器学习模型在相同变量集上的预测性能。我们使用了包含60岁及以上社区居住成年人的大型、具有全国代表性的常规初级保健数据集。其次,我们旨在评估虚弱指数和预测模型在相关临床亚群体(即痴呆症患者)中的预测性能。我们假设通过对缺陷进行加权处理,可以提升虚弱指数作为高风险人群筛查工具的效果。
方法
方法
本研究使用了参与Nivel初级保健数据库(Nivel-PCD)的初级保健机构的电子健康记录(EHR)数据。该数据库涵盖了约400家荷兰全科医疗机构的代表性样本,覆盖了荷兰约10%的人口,并已在其他文献中详细描述(Vanhommerig等人,2025)。Nivel数据库在年龄、性别和城市化程度方面具有代表性,同时进行了基本的数据质量控制。
结果
我们的研究共纳入了355,958名老年人,其中8,691人在1年内死亡,51,399人在5年内死亡。虚弱指数的中位数为0.056,四分位数范围为0.028至0.111。痴呆症亚群体包含6,394人,其中中位虚弱指数为0.139,分别在1年和5年的随访期间有836人和4,147人死亡。按结果分层的样本描述信息见表1。
讨论
在本研究中,我们将虚弱指数与基于其各个缺陷的多种预测模型进行了比较。发现使用单个缺陷作为回归模型的预测变量时,其区分度有所提高。这表明单个缺陷比整体虚弱指数更具预测性。实际上,在预测建模中建议对变量进行单独加权处理。
结论
我们的研究表明,基于回归和机器学习的预测模型利用个体虚弱缺陷,可以在一定程度上提升虚弱指数对初级保健中老年人1年和5年死亡率的预测能力。然而,对于四种模型中的三种,我们发现的AUC-ROC提升幅度较小,这在临床应用中需要考虑模型的简单性。我们还发现,痴呆症患者的预测性能较差,这是一个重要限制。
伦理批准
本研究遵循NIVEL初级保健数据库的管理规范(编号NZR-00315.063)进行。参与者已被告知其数据的使用目的,并有机会提出异议。
作者贡献声明
Collin JC Exmann:撰写初稿、方法论设计、数据分析、概念构建。
Karlijn J Joling:撰写、审稿与编辑、监督、方法论设计、资金筹集、数据分析、概念构建。
Robert Verheij:撰写、审稿与编辑、资源协调、数据管理。
Iris van der Heide:撰写、审稿与编辑、资源协调、数据管理。
Hein PJ van Hout:撰写、审稿与编辑、监督、方法论设计、资金筹集、数据分析、概念构建。