基于多数据库验证的可解释机器学习模型预测肺炎患者院内死亡率的开发与综合评价
【字体:
大
中
小
】
时间:2025年10月02日
来源:Respiratory Research 5
编辑推荐:
本刊推荐:为解决肺炎死亡率预测中样本量小、单中心设计及缺乏跨医疗系统验证等问题,陈嘉焕团队开展了一项利用四种大规模数据库开发可解释机器学习模型预测肺炎患者院内死亡率的研究。研究证实XGBoost模型表现最优(AUC 0.747),并在外部验证中保持稳健性能(AUC 0.653-0.695),SHAP分析揭示血小板计数、血尿素氮(BUN)和年龄为关键预测因子。该研究首次实现了肺炎死亡率预测模型的多数据库验证,为临床决策提供了可靠工具。
肺炎一直是全球发病率和死亡率最重要的原因之一,特别是在需要重症监护室(ICU)入院的危重患者中。尽管抗菌治疗和支持治疗取得了进展,重症肺炎仍然与高死亡率相关,不同医疗系统的死亡率范围在17.1%至38.3%之间。肺炎患者表现的临床异质性给临床医生在风险分层和治疗决策方面带来了巨大挑战。早期准确预测死亡风险对于优化资源分配、指导治疗干预和改善重症监护环境中的患者结局至关重要。
传统严重程度评分系统,包括简化急性生理学评分(SAPS)、序贯器官衰竭评估(SOFA)、CURB-65和肺炎严重程度指数(PSI),已广泛用于肺炎患者的死亡率预测。然而,这些传统方法在临床实践中表现出显著局限性。APACHE-II和SOFA评分显示性能不佳,曲线下面积(AUC)值为0.650,在重症肺炎患者中判别能力有限。类似地,CURB-65和PSI在不同队列中表现出中等预测性能,AUC范围在0.642至0.799之间。Carmo等人开发的肺炎特异性ICU严重程度评分(肺炎休克评分)相比传统评分表现出改进的性能,但受到样本量小和单中心验证的限制。这些传统评分系统受到以下限制:依赖于基于临床经验的预定变量,无法捕捉临床变量与结局之间复杂的非线性关系。
机器学习(ML)方法已成为传统评分系统的有前景替代方案,通过从大型数据集中自动选择特征和建模复杂非线性关系的能力,提供卓越的预测能力。最近的研究证明了ML模型在肺炎死亡率预测中的优势。Cilloniz等人开发的XGBoost模型在社区获得性肺炎患者中达到AUC 0.826,显著优于CURB-65(AUC: 0.764)和qSOFA(AUC: 0.729)。类似地,Jeon等人报告ML模型包括逻辑回归(AUC: 0.820)、LightGBM(AUC: 0.827)和多层感知器(AUC: 0.838)显著优于ICU肺炎患者中的SAPS-II(AUC: 0.650)。此外,通过Shapley加性解释(SHAP)分析显著增强了ML模型的可解释性,提供透明的特征重要性排名,使临床医生能够理解个体预测贡献,解决了ML方法传统的"黑盒"限制。
然而,现有的肺炎死亡率预测ML研究存在几个关键局限性,包括样本量小(范围115至4,697名患者)、单中心设计、缺乏跨不同医疗系统的外部验证以及有限的地理普适性。稳健且可推广的ML模型的开发需要在代表不同患者人群和医疗系统的多个数据库中进行验证。以前的研究主要关注单数据库方法或有限的外部验证,限制了其临床适用性和普适性。Yang等人仅使用来自七个医疗中心的204名患者开发了ML模型,实现了良好性能(AUC: 0.901),但样本量有限。Wang等人使用MIMIC-IV和eICU数据库创建肺炎评分,但主要关注1年死亡率预测,特征选择有限(AUC范围: 0.691-0.797)。Zhao等人在单中心使用875名患者开发模型,实现了竞争性能(AUC: 0.8779),但缺乏多中心验证。整合CCI-APS评分显示前景,但受到数据库特定特征工程和缺乏跨不同医疗系统和患者人群的全面外部验证的限制。
尽管在肺炎死亡率预测方面有大量机器学习研究,文献中仍然存在几个关键差距。首先,大多数现有模型缺乏跨不同医疗系统的全面多数据库验证,限制了其普适性。其次,复杂机器学习模型的可解释性仍然是临床采用的重要障碍。第三,缺乏足够的前瞻性验证队列整合来确认模型在真实世界环境中的性能。我们的研究通过提供首个跨越四个不同医疗系统的全面多数据库验证,结合回顾性和前瞻性队列,并采用先进可解释性技术确保临床透明度,来解决这些差距。
因此,本研究旨在通过使用代表不同医疗系统、患者人群和地理区域的四个大规模数据库开发并验证用于肺炎患者院内死亡率预测的ML模型,来解决这些局限性。我们采用严格的特征选择方法和全面的外部验证,以确保模型的稳健性和普适性。SHAP分析的整合提供了对特征贡献的临床可解释见解,促进真实世界ICU环境中的临床采用和决策支持。
这项回顾性多中心研究利用四个大规模数据库开发并验证用于预测肺炎患者院内死亡率的机器学习模型。研究方案经机构审查委员会批准,由于研究的回顾性性质,知情同意被豁免。
数据库描述包括MIMIC-IV数据库(主要训练数据集)、MIMIC-III CareVue数据库(外部验证)、eICU数据库(外部验证)和FAHZU数据库(复旦大学附属医院院内多中心前瞻性研究)。肺炎患者使用国际疾病分类(ICD)代码识别。纳入标准为:基于ICD代码诊断为肺炎的患者;年龄>18岁;ICU住院时间≥24小时;首次住院期间首次ICU入院。排除缺少基本临床数据的患者。
数据提取使用PostgreSQL查询获取患者人口统计学、生命体征、实验室结果和临床结局。从MIMIC-IV和MIMIC-III数据库提取72个变量,从eICU数据库提取68个变量,从FAHZU数据库提取30个可用变量(排除缺失值>20%的变量后)。最终分析包括所有四个数据集中共有且每个数据集缺失值<20%的21个变量:年龄、性别、体重、序贯器官衰竭评估(SOFA)评分、医院结局、医院住院时间、第一个24小时收缩压、第一个24小时舒张压、第一个24小时心率、第一个24小时体温、第一个24小时呼吸频率、第一个24小时氧饱和度、第一个24小时肌酐、第一个24小时血尿素氮(BUN)、第一个24小时血红蛋白、第一个24小时血小板计数、第一个24小时白细胞计数、高血压病史、糖尿病病史、慢性阻塞性肺疾病(COPD)病史和恶性肿瘤病史。
使用R中mice包通过多重插补处理缺失值,对连续变量使用预测均值匹配,对分类变量使用逻辑回归。
使用Boruta算法进行特征选择,该算法采用围绕随机森林的包装器方法来识别相关特征。算法通过洗牌原始特征创建阴影特征,并通过统计测试将其重要性与真实特征进行比较。在多次迭代中持续优于其阴影对应物的特征被视为重要。执行Boruta算法最多100次运行以确保稳健的特征重要性评估。
使用R version 4.3.0中caret包实现五种机器学习算法:随机森林(RF)、极限梯度提升(XGBoost)、逻辑回归(LR)、最小绝对收缩和选择算子(LASSO)和带有径向基函数核的支持向量机(SVM-RBF)。选择这些算法以代表不同的学习范式,包括集成方法、线性模型和基于核的方法,确保跨不同算法框架的预测性能全面评估。
MIMIC-IV数据集作为主要训练数据集,并使用通过createDataPartition函数的分层抽样随机划分为训练(70%)和内部验证(30%)集,以在两个子集中维持原始结局分布。在三个独立数据集上进行外部验证:MIMIC-III CareVue、eICU协作研究数据库和FAHZU多中心数据集。这种多数据库验证策略确保了跨不同医疗系统、患者人群和数据收集协议的模型普适性的稳健评估。
采用五折交叉验证和三次重复(5x3 CV)进行超参数调优和模型选择,每个超参数组合产生15个性能估计。由于对类别不平衡的稳健性,受试者工作特征曲线下面积(AUC)作为主要优化指标。使用doParallel包和(cores-1)处理器实施并行计算以加速计算过程。所有模型使用twoClassSummary函数进行全面性能评估,包括敏感性、特异性和阳性/阴性预测值。
随机森林的超参数网格包括mtry值2、3和4(每次分割随机抽样的变量数)。实施额外约束以防止过拟合:nodesize=400(终端节点中的最小观测值)、maxnodes=50(终端节点的最大数量)、ntree=200(树的数量)、sampsize=0.6 x training_size(自助抽样样本大小)和replace=FALSE(无放回抽样)。启用变量重要性计算以供后续特征解释。
XGBoost参数网格包括nrounds 50和100(提升迭代)、max_depth 3和4(最大树深度)、eta 0.1和0.2(学习率),固定参数包括gamma=0.2(最小损失减少)、colsample_bytree=0.8(特征抽样比率)、min_child_weight=10(子节点中实例权重的最小和)和subsample=0.8(训练实例抽样比率)。数据预处理包括居中和缩放变换。
实施标准二项族逻辑回归,包含预处理步骤包括居中、缩放和近零方差移除(preProcess=c("center","scale","nzv"))。此基线线性模型不需要额外超参数调优。
弹性网络实施包含Ridge和LASSO惩罚,alpha值范围从0.0(纯Ridge)到1.0(纯LASSO),间隔为[0.0,0.2,0.5,0.7,1.0]。正则化强度参数lambda在15个对数间隔值从10-4到100上进行优化。为二分类指定二项族,并启用自动特征标准化。
采用径向基函数核,超参数优化跨sigma值[0.001,0.01,0.1,0.5,1.0](核带宽参数)和C值[0.1,1,10,100,1000](正则化参数)。应用与逻辑回归相同的预处理步骤,包括居中、缩放和近零方差过滤。
所有模型使用相同的预处理流程和交叉验证策略进行训练以确保公平比较。训练过程通过完整病例分析自动处理缺失值,尽管最终数据集包含最少的缺失(每个变量<5%)。实施模型特定训练函数并带有错误处理,以确保所有算法的稳健执行。为所有随机过程设置随机种子666以确保可重复性。
使用kernelshap包计算的SHAP值评估模型可解释性。SHAP值量化每个特征对个体预测的贡献,提供全局和局部解释。在所有五个数据集上执行分析以评估跨不同人群的特征重要性一致性。
使用多个指标评估模型性能:带有95%置信区间的AUC、敏感性、特异性、准确性、阳性预测值(PPV)和阴性预测值(NPV)。使用Youden's J统计确定最佳阈值。
使用决策曲线分析(DCA)评估临床实用性,该分析评估跨不同阈值概率使用模型的净收益,与治疗所有患者或不治疗相比。
基于所有五个数据集的平均AUC选择最佳性能模型。使用AUC比较的bootstrap置信区间评估统计显著性。
所有分析使用R version 4.5.0进行。关键包包括:用于机器学习的caret、用于ROC分析的pROC、用于特征选择的Boruta、用于SHAP分析的kernelshap、用于多重插补的mice以及各种可视化包包括ggplot2、ComplexHeatmap和用于颜色方案的MetBrewer。
四个数据库的患者选择过程如图1所示。应用顺序排除标准后,最终研究队列包括25,783名肺炎患者:9,410名来自MIMIC-IV(训练数据集)、2,487名来自MIMIC-III、13,541名来自eICU和345名来自FAHZU(外部验证数据集)。主要排除包括非首次入院、年龄≤18岁的患者和所有数据库中ICU住院<24小时的患者。
基线特征显示四个数据库之间存在显著异质性(表1)。中位年龄范围从67.0岁(eICU)到76.0岁(FAHZU),FAHZU队列显著更老(p<0.001,SMD=0.320)。性别分布差异很大,FAHZU显示男性比例更高(75.1%),相比其他数据库(54.8-56.3%)。临床严重程度指标观察到显著差异:SOFA评分在eICU中最高(中位数6.0),在FAHZU中最低(中位数4.0)。医院死亡率在不同数据库间差异显著,范围从eICU的17.1%到FAHZU的38.3%(p<0.001,SMD=0.260)。实验室参数显示相当大的变异,特别是FAHZU患者,肌酐和血红蛋白值似乎以不同单位测量,需要标准化分析。数据库特定死亡率比较详见表S1-S4,证明所有四个数据集中年龄、SOFA评分和死亡率结局之间存在一致关联。
Boruta算法在三个公共数据库中识别出不同的特征重要性模式,如图2所示。在MIMIC-IV(图2A)中,13个特征被确认为对死亡率预测重要,实验室参数显示最高重要性:BUN(平均重要性:40.43)、肌酐(33.64)和血小板计数(20.16)。MIMIC-III表现出更保守的选择模式(图2B),确认9个特征,同时指定3个为暂定,包括血红蛋白和氧饱和度。eICU数据库(图2C)显示最全面的特征确认,所有13个评估变量达到确认状态,表明所有检查参数中存在稳健预测信号。
跨数据库分析揭示所有三个公共数据库中9个一致重要特征:年龄、舒张压、心率、体温、呼吸频率、肌酐、BUN、血小板计数和白细胞计数。这些核心预测因子表现出惊人的预测价值一致性,BUN和肌酐在所有数据集中一致排名为前两个最重要特征(平均重要性范围:BUN 19.61-45.01,肌酐 14.04-38.49)。这一稳定特征集的识别为开发可推广预测模型奠定了基础,这些模型可以在不同医疗环境和患者人群中保持性能。
使用通过跨数据库Boruta分析识别的9个一致重要特征,开发并评估了五种机器学习模型用于肺炎死亡率预测。基于所有数据集的平均AUC性能,XGBoost成为最优模型(表2)。在MIMIC-IV训练队列中,XGBoost达到最高AUC 0.747(95%CI: 0.733-0.761),具有良好的敏感性(0.714)和中等的特异性(0.657)。模型表现出稳健的外部验证性能,在MIMIC-IV测试上AUC 0.672(95%CI: 0.649-0.695)、MIMIC-III上0.670(95%CI: 0.647-0.693)、eICU上0.695(95%CI: 0.683-0.706)和FAHZU数据集上0.653(95%CI: 0.594-0.711)。准确性范围从0.614(FAHZU)到0.831(eICU),而敏感性在外部验证数据集上从0.624到0.742变化。其他模型包括随机森林(平均AUC: 0.634)、逻辑回归(平均AUC: 0.643)、LASSO(平均AUC: 0.644)和SVM(平均AUC: 0.613)在验证数据集上显示一致较低性能。基于SHAP的特征重要性分析揭示所有数据集间变量贡献的一致模式(图4A-F),BUN和肌酐保持其作为最有影响力预测因子的位置。强大的外部验证性能,特别是跨地理和时间不同数据集的一致AUC值范围0.653至0.695,证明了模型出色的普适性和真实世界临床应用的潜力。
决策曲线分析确认了XGBoost模型的临床实用性,显示在MIMIC-IV训练数据集上跨阈值概率范围(0.05-0.35)相比治疗所有和治疗无策略的优越净收益(图S1)。模型在阈值概率0.10和0.25之间显示最大临床效益,对应重症监护环境中肺炎患者临床干预决策最关键的风险水平。
SHAP分析提供所有数据集间特征贡献的全面见解,揭示特征重要性的一致模式和数据集特定变异(图4A-F)。血小板计数在所有数据集平均时出现为最有影响力的预测因子(平均SHAP重要性:0.033475),在FAHZU队列中显示特别高的重要性(0.040497),同时在MIMIC-IV训练(0.033375)、测试(0.036469)、MIMIC-III(0.030107)和eICU(0.026929)数据集中保持一致性相关性。BUN全球排名第二重要特征(平均重要性:0.032406),在大多数数据集中显示显著一致性,但在FAHZU队列中重要性显著较低(0.011563),可能反映实验室测量方案或患者特征的差异。
年龄在所有数据集中一致排名第三重要预测因子(平均重要性:0.027566),具有相对稳定的贡献范围从0.020249(FAHZU)到0.030584(MIMIC-III)。白细胞计数保持中等重要性(平均:0.01992),在所有外部验证数据集上具有一致性能。生命体征参数显示不同的重要性模式:心率显示稳定的预测价值(平均:0.01791),而呼吸频率(平均:0.016121)和体温(平均:0.014843)在数据集间显示更大的变异性。值得注意的是,肌酐尽管被Boruta分析识别为重要,但显示相对较低的SHAP重要性(平均:0.009909),在FAHZU数据集中贡献最小(0.000268),表明潜在的测量标准化问题。舒张压在所选特征中排名最低(平均:0.009185),但在所有数据集中保持一致的贡献。
使用MIMIC-IV训练数据的SHAP依赖图揭示特征和死亡率预测之间的复杂非线性关系(图5)。BUN显示与死亡风险的强正相关关系,SHAP值在100 mg/dL以上急剧增加,表明严重升高的BUN水平显著增加预测死亡风险。血小板计数显示与死亡率的反比关系,较低血小板计数(特别是低于200x109/L)与增加的死亡风险相关,符合血小板减少症指示危重患者不良预后的临床理解。年龄依赖图揭示与死亡风险的一致正相关关系,SHAP值随年龄增长逐渐增加,特别是在70岁后陡峭增加。
白细胞计数显示复杂模式,非常低和非常高的值都有助于增加死亡风险,表明U形关系,符合白细胞减少和严重白细胞增多指示不良预后的临床理解。心率显示与死亡风险的正相关,较高心率(>150 bpm)与显著增加的SHAP值相关。呼吸频率显示类似的正相关关系,升高速率(>30 breaths/min)指示增加死亡风险。体温显示最佳范围约36-37°C,低体温和高体温都有助于增加死亡预测。肌酐显示与死亡风险的正相关关系,但具有更大的变异性,而舒张压显示负相关关系,较低血压值与增加死亡风险相关,符合低血压在危重患者中的临床意义。在外部验证数据集中观察到类似模式,如图S2-S5所示。
SHAP力图提供所有数据集中个体患者特征贡献的全面可视化,证明模型生成个性化风险评估的能力(图6A-E)。这些图揭示患者间特征贡献模式的异质性,一些个体显示实验室参数的主要贡献,而其他个体显示生命体征或人口统计学因素的主要贡献。力图有效说明多个特征的累积效应如何驱动最终死亡率预测,红色段指示增加死亡风险的特征,蓝色段代表保护因素。
比较MIMIC-IV训练数据中高风险和低风险患者的SHAP瀑布图提供详细见解,区分患者风险类别的差异特征贡献(图6F)。高风险患者显示来自低血小板计数(+0.263)、升高BUN水平(+0.0812)、增加心率(+0.0664)和升高呼吸频率(+0.0401)的显著正贡献。这些患者还显示来自高龄(69岁)、升高肌酐和其他生理参数的正贡献,反映与重症肺炎相关的全面恶化。相反,低风险患者显示来自较年轻年龄(22岁,-0.0766)、正常BUN水平(9 mg/dL,-0.0257)、充足血小板计数(223x109/L,-0.0166)和稳定生命体征包括正常白细胞计数(-0.0144)、体温(-0.0128)、心率(-0.011)和呼吸频率(-0.0102)的强保护贡献。基线预测值(f(x)=0.513对于高风险 vs. f(x)=0.487对于低风险)和特征贡献的差异说明模型将患者分层为不同风险类别的能力。在所有外部验证数据集中一致观察到风险分化的类似模式,如图S6-S9所示,确认模型在跨不同临床环境和人群中识别高风险患者的稳健性能。
这项多中心研究代表了迄今为止肺炎死亡率预测机器学习模型最全面的评估,利用四个大规模数据库,涵盖跨不同医疗系统和地理区域的25,783名患者。我们的发现证明XGBoost一致优于传统严重程度评分系统和其他机器学习算法,在所有验证数据集上实现稳健的外部验证,AUC范围0.653至0.695。这些结果显著推进了重症监护肺炎管理中的计算预后领域。
我们的XGBoost模型相比传统评分系统的优越性能与先前肺炎死亡率预测中的发现一致并扩展。我们的模型在所有数据集上达到平均AUC 0.688,与最近研究相比有利:Cilloniz等人报告其SeF-ML模型在社区获得性肺炎中AUC 0.826,而Jeon等人在ICU肺炎患者中实现各种ML模型的AUC 0.820-0.838。然而,这些研究受限于较小的样本量(分别为4,531和816名患者)和缺乏全面的外部验证。Wang等人开发了整合CCI-APS评分,医院死亡率预测的AUC范围0.691至0.780,但他们的研究仅包含4,697名MIMIC-IV患者,没有多数据库验证。我们的研究通过跨四个数据库的严格外部验证解决这些局限性,证明跨不同患者人群和医疗环境的一致性能。
虽然传统评分系统如SOFA和APACHE-II在床边提供简单性和易用性,我们的XGBoost模型提供几个证明其额外复杂性合理的优势。首先,模型捕捉传统线性评分系统无法检测的变量之间的非线性关系。其次,基于SHAP的可解释性为个体患者提供个性化风险因素贡献,实现量身定制的临床干预。第三,为解决实施担忧,我们开发了用户友好的基于网络的计算器,自动化复杂计算,使模型与传统评分系统一样可访问,同时保持优越的预测性能。复杂性和准确性之间的权衡是合理的,当改进的判别能有意义地影响临床决策时,特别是在高风险场景中,如ICU资源分配。
所有数据库中九个一致重要特征的识别代表对理解肺炎死亡率预测因子的重要贡献。我们的SHAP分析揭示血小板计数出现为最有影响力的预测因子(平均SHAP重要性:0.033475),其次是BUN(0.032406)和年龄(0.027566)。这些发现与先前ML研究一致:Zhao等人在其875名患者队列中识别铁蛋白、乳酸和BUN为顶级预测因子(AUC: 0.8779),而Yang等人在其204名患者的多中心研究中发现WBC计数、年龄和CRP为关键预测因子(AUC: 0.901)。BUN和年龄作为跨多个研究的关键预测因子的一致性加强了其预后重要性的证据。值得注意的是,我们的发现与Xie等人的系统评价一致,该评价识别年龄(5.76岁差异)、血清肌酐(+67.77 mmol/L)和BUN(+6.26 mmol/L)作为22项研究中重症肺炎患者的显著死亡率预测因子。SHAP分析提供的可解释性解决ML模型传统的"黑盒"限制,如Li等人证明,SHAP基于解释增强ICU肺炎患者中ML模型的临床采用。
我们的研究的多数据库方法揭示跨医疗系统的真实世界变异,死亡率范围从eICU的17.1%到FAHZU的38.3%,反映患者人群和医疗系统的真实世界变异。这种异质性与Marcy等人在六个国家的国际阶梯楔形试验中的发现一致,证明不同医疗环境中死亡率显著变化。我们的XGBoost模型尽管存在这些变异仍保持一致性能(AUCs: 0.653-0.695)证明相比先前单中心研究的优越普适性。例如,Pan等人的LightGBM模型在其开发队列中达到AUC
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号