基于多导睡眠图表型分析与集成学习的慢性肾脏病早期预测新策略
《npj Digital Medicine》:Ensemble learning approaches for early prediction of chronic kidney disease based on polysomnographic phenotype analysis
【字体:
大
中
小
】
时间:2025年11月19日
来源:npj Digital Medicine 15.1
编辑推荐:
本研究针对慢性肾脏病(CKD)早期诊断难题,创新性地结合多导睡眠图(PSG)表型数据与集成学习(EL)技术,通过随机森林(RF)、XGBoost、LightGBM和CatBoost四种算法对358名受试者的1210个睡眠参数进行分析,成功实现CKD严重程度的多分类预测(AUC>89%)。特征重要性分析揭示氧饱和度紊乱、睡眠结构异常和心率变异性等PSG衍生指标与CKD进展密切相关,为无创性CKD筛查提供了新范式。
在全球范围内,慢性肾脏病(CKD)影响着约10%的人口,其发病率和死亡率持续攀升。这种进行性肾功能减退疾病,传统上通过估算肾小球滤过率(eGFR)和血清肌酐等生物标志物评估,但早期检测始终是临床面临的重大挑战。当疾病进展至终末期肾病(ESKD),患者只能依赖透析或肾移植维持生命,而贫血、心血管疾病等合并症更使疾病管理复杂化。
有趣的是,越来越多的证据表明睡眠障碍与CKD之间存在密切联系。阻塞性睡眠呼吸暂停、不宁腿综合征等睡眠问题不仅是CKD的危险因素,更是疾病严重程度的重要指标。然而,现有研究多依赖患者自述的睡眠质量,缺乏能够捕捉复杂生理表型的客观测量方法。多导睡眠图(PSG)作为睡眠障碍诊断的金标准,能全面记录呼吸指标、睡眠结构和心血管信号,但其在CKD筛查中的应用潜力尚未被充分挖掘。
正是在这一背景下,来自延世大学的研究团队在《npj Digital Medicine》上发表了创新性研究。他们提出了一种基于集成学习(EL)的自动化筛查方法,通过分析PSG衍生的表型特征来实现CKD的早期预测和严重程度分类。研究人员假设,PSG数据中蕴含的生理信号经过机器学习模型解析后,能够成为CKD筛查的有效工具。
本研究采用前瞻性队列设计,数据来源于克利夫兰家族研究(CFS)的358名参与者(179名CKD患者和179名早期CKD患者)。通过倾向评分匹配控制性别、年龄和体重指数(BMI)等混杂因素后,研究团队从PSG记录中提取了1210个临床表型特征,涵盖呼吸指标、睡眠架构、肢体运动模式和信号质量等13个类别。这些特征经过严格的筛选流程,包括低方差过滤、单变量统计检验和递归特征消除,最终保留最具 discriminative 的变量作为模型输入。
技术方法上,研究团队采用了四种代表性的集成学习算法:随机森林(RF)作为装袋法代表,XGBoost、LightGBM和CatBoost作为梯度提升算法代表。模型训练采用70%数据,验证和测试各占20%和10%,针对类别不平衡问题使用合成少数类过采样技术(SMOTE)进行处理。性能评估综合了准确率、精确度、召回率、F1分数和受试者工作特征曲线下面积(AUC)等指标。
研究人群显示CKD组女性比例显著较高(66.5% vs 51.4%,p<0.05),但经过匹配后,两组在年龄、BMI、睡眠效率和总睡眠时间等变量上无显著差异。虽然CKD组的呼吸暂停低通气指数(AHI)和心率略高,但未达到统计学显著性。实验室数据显示早期CKD组尿肌酐水平显著升高(125.7±67.4 mg/dL vs 100.2±63.9 mg/dL,p<0.001),这与肾功能受损的临床表现一致。
通过集成学习模型的特征重要性分析,研究人员识别出影响CKD分类的关键因素。排名前15的特征包括:夜间醒来后重新入睡困难(difbak)、晨间吸烟时间(am930cig)、鼻导管信号可用时长(candur)、非仰卧位REM睡眠觉醒次数(arremop)等。这些发现强调了睡眠连续性、呼吸事件持续时间和信号质量在CKD风险评估中的重要性。
四种集成学习模型在CKD严重程度分类中均表现出色,AUC值均超过85%,其中晚期CKD(4-5期)的AUC值超过89%。XGBoost表现最佳,在2期CKD分类中AUC达到0.95,对3-5期CKD的分类近乎完美。随机森林的平均准确率最高(80%),而CatBoost相对较低(61%)。这些结果验证了集成学习在处理高维PSG数据方面的优势。
使用西班牙裔社区健康研究(HCHS/SOL)数据集进行的外部验证进一步证实了模型的泛化能力。在1,016名参与者中,模型对CKD 3b期、4期和5期的判别性能近乎完美,AUC值分别为0.97、0.98和1.00。这一结果证明该方法的稳健性和跨人群适用性。
本研究成功证实了PSG衍生表型数据在CKD严重程度分类中的价值。通过集成学习技术,研究人员展示了无创性CKD检测的可行性,有望革新早期疾病识别策略。特征重要性分析结果与现有病理生理学理论高度一致:夜间反复低氧、觉醒频率增加和自主神经调节改变等PSG可捕捉的生理紊乱,反映了CKD进展中的系统性变化。
将EL驱动的CKD筛查整合到临床工作流程中,具有改善早期检测、风险评估和个性化疾病管理的巨大潜力。考虑到PSG已在睡眠医学中广泛应用,利用机器学习模型分析PSG特征可以在不需要额外侵入性检测的情况下实现CKD风险识别。初级保健医生和肾脏科医生可将AI生成的PSG风险评分作为早期预警系统,促进进一步的肾功能评估和早期干预。
当然,研究也存在一些局限性。尽管采用了过采样技术,类别不平衡问题可能仍导致模型性能被高估;未纳入血清肌酐、白蛋白尿和胱抑素C等关键生物标志物;不同睡眠中心的PSG协议差异可能引入数据异质性。未来研究应聚焦于开发结合PSG特征与临床、生化数据的多模态AI框架,探索基于AI睡眠追踪技术的家庭筛查可行性,并通过纵向研究评估睡眠表型与CKD进展的动态关系。
这项研究为CKD管理提供了新思路,通过搭建睡眠医学与肾脏病学之间的桥梁,为实现慢性疾病的全方位管理指明了方向。随着进一步验证和优化,这种基于集成学习的方法有望成为CKD筛查的重要补充工具,为早期诊断和干预开辟新途径。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号