随机生存森林与Cox回归在儿童肾母细胞瘤长期预后预测中的对比研究:基于SEER数据库与中国外部验证队列

【字体: 时间:2025年09月27日 来源:Discover Oncology 2.9

编辑推荐:

  本研究针对儿童肾母细胞瘤(WT)长期预后预测精度不足的问题,开发了基于随机生存森林(RSF)的机器学习模型。通过LASSO回归筛选出肿瘤分期、年龄、淋巴结密度(LND)等6个关键变量,利用SEER数据库(1629例)训练并借助中国重庆医科大学儿童医院169例数据外部验证。结果显示RSF模型的C指数(0.868)显著优于传统Cox模型(0.759),NRI和IDI指标均提升(P<0.01),且SHAP分析增强了模型可解释性。该模型为WT患儿风险分层和个体化治疗提供了精准工具。

  
肾母细胞瘤(Wilms tumor, WT)作为儿童最常见的恶性肾脏肿瘤,虽然近年来通过手术、化疗和放疗的综合治疗使总体生存率显著提升,但长期预后预测仍面临重大挑战。传统预后模型多基于Cox回归方法,存在对数据分布要求严格、难以处理非线性关系等局限性。尤其在中国,由于地域经济差异和诊疗方案不统一,患儿生存率较发达国家更低且波动更大,这使得开发高精度预测工具成为临床迫切需求。
本研究首次将机器学习中的随机生存森林(RSF)算法应用于WT预后预测,利用美国SEER数据库(2000-2021年)的1,629例患儿数据构建模型,并通过重庆医科大学儿童医院(CHCMU)的169例患儿数据进行外部验证。通过LASSO回归从13个临床变量中筛选出6个关键预后因素:肿瘤分期、年龄、淋巴结密度(LND)、肿瘤转移、阳性淋巴结数量和肿瘤侧向性(单/双侧)。研究采用SHAP方法增强模型可解释性,并通过校准曲线、C指数、净重分类指数(NRI)和综合判别改善指数(IDI)等多维度指标与传统Cox模型进行性能对比。
关键技术方法包括:从SEER数据库和CHCMU队列提取临床数据;使用LASSO回归进行特征选择;采用网格搜索优化RSF参数(ntree=600, mtry=2, nodesize=5);通过10折交叉验证构建模型;使用SHAP分析特征重要性;采用Brier分数、时间依赖ROC曲线和决策曲线分析(DCA)评估性能。
研究结果
临床特征分析:SEER队列中位年龄3岁,CHCMU队列中位年龄2岁。中国患儿肿瘤分期更低但死亡率更高,提示存在隐匿性转移可能。Kaplan-Meier曲线显示中国患儿总生存率显著低于美国患儿(P<0.05)。
变量筛选与模型构建:LASSO回归识别出的6个变量中,肿瘤分期重要性最高,其次为年龄和LND。RSF模型显示最佳预测稳定性。
模型性能验证:RSF模型在训练集、内部验证集和外部验证集均显示良好校准度(预测值与实测值吻合)。时间依赖AUC在3年、5年和7年预测中均超过0.85。风险分层曲线显示高、低风险组生存差异显著(log-rank P<0.001)。
与传统模型对比:RSF的C指数(0.868)显著高于Cox模型(0.759)。NRI(0.305)和IDI(0.177)的改善具有统计学意义(P<0.01)。决策曲线显示RSF在3/5/7年预测中具有更高临床净收益。
敏感性分析:通过多重插补处理缺失数据后,模型仍保持稳定性能(AUC波动<0.02),证实结论可靠性。
结论与意义:本研究构建的RSF模型首次实现WT患儿长期生存的精准预测,其性能显著优于传统Cox模型。SHAP分析明确肿瘤分期为核心预后因素,LND和淋巴结转移状态的重要性首次被量化。模型成功克服了传统方法对线性假设的依赖,能有效处理临床数据中的复杂交互作用。外部验证证实其跨人群适用性,为发展中国家医疗资源优化提供了实用工具。未来需整合基因突变(如1p/16q缺失)和病理学特征以进一步提升预测精度。该研究为儿科肿瘤预后建模建立了新范式,推动机器学习在临床决策中的转化应用。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号