基于机器学习和异常检测算法的年龄特异性糖尿病预测模型开发与验证

【字体: 时间:2025年09月24日 来源:Endocrine 2.9

编辑推荐:

  本研究针对糖尿病(DM)患病率随年龄变化的挑战,利用机器学习(ML)和异常检测算法开发了年龄特异性预测模型。通过48万余人的健康体检数据,研究发现LightGBM(LGBM)模型在多数年龄组表现最优(AUC高达0.911),而隔离森林(IF)在40岁年龄组效果最佳。该研究为糖尿病早期筛查提供了精准化、年龄适配的预测工具,对改善公共卫生干预策略具有重要意义。

  

糖尿病(Diabetes Mellitus, DM)已成为全球严重的公共卫生挑战,不仅造成巨大的社会经济负担,更是心血管疾病、肾功能衰竭和失明的主要诱因。尤其值得关注的是,糖尿病患病率存在明显的年龄差异,老年人群的发病率显著更高。早期诊断和及时干预对延缓并发症、降低死亡率至关重要——研究表明,诊断第一年内糖化血红蛋白(HbA1c)降低1%的患者,其死亡和心肌梗死风险显著低于5-10年后才实现相同控制水平的人群。

然而现实中,血糖升高与正式确诊之间常存在延迟,因此如何在发病前识别高风险个体成为关键。近年来,虽已有研究尝试利用健康体检大数据和机器学习(ML)预测糖尿病,但多数模型面临数据不平衡(即非糖尿病患者远多于患者)和年龄分布不均的挑战,影响了预测准确性和泛化能力。传统模型在年轻或低患病率群体中表现往往不佳,亟需更精细化的方法。

为此,一项发表于《Endocrine》的研究提出了一种创新解决方案:开发年龄特异性的糖尿病预测模型,结合传统机器学习与先进的异常检测算法,以优化不同年龄段的预测性能。研究团队利用日本金泽市和羽咋市共超过52万人的健康体检数据,构建了包括LightGBM、TabNet、变分自编码器(VAE)和隔离森林(IF)在内的四种模型,预测三年内的糖尿病发病风险。

研究人员主要依托大规模健康体检队列,数据来源包括金泽市(2008–2018年)和羽咋市(2012–2022年)的参与者,排除了已确诊或治疗中的糖尿病患者。采用多种技术方法:LightGBM和TabNet用于分类建模,VAE和IF用于处理高度不平衡数据的异常检测;使用MissForest算法处理缺失值,通过特征重要性排名(Gini重要性、增益权重或注意力机制)筛选预测变量;模型训练采用80/20分割与分层抽样,并进行50次重复实验以评估性能,最终以AUC、敏感性和特异性作为评价指标,并完成外部验证。

研究对象特征

共纳入金泽市175,803名和羽咋市17,575名参与者。金泽市中,三年内新发DM者4,213人(2.40%),非DM者171,591人;羽咋市新发DM 658人(3.74%),非DM 16,917人。DM患病率随年龄增长而上升,两组人群中70–79岁患病率最高(金泽2.84%,羽咋3.85%)。基本临床指标如BMI、腰围、空腹血糖(FPG)和HbA1c也呈现年龄相关性变化。

预测模型在内部验证中的表现

LightGBM(LGBM)在所有年龄和多数特定年龄组中均表现出最高的AUC、敏感性和特异性。对于50–59岁和60–69岁人群,LGBM的AUC达到0.911,敏感性和特异性均超过0.79。而在40–49岁组,隔离森林(IF)的AUC和敏感性最高,说明异常检测方法在低患病率年龄段更具优势。

全年龄模型的特征重要性分析

LightGBM模型中,重要性排名前十的特征包括:HbA1c、血浆葡萄糖、高血压药物治疗、估算肾小球滤过率(eGFR)、高密度脂蛋白胆固醇(HDL-C)、身高、咀嚼功能、BMI、尿酸(UA)和平均红细胞血红蛋白量(MCH)。TabNet模型的重要特征也包含血糖和HbA1c,但还包括性别、总胆固醇(TC)、血小板计数等指标。

全年龄模型与年龄特异性模型的外部验证比较

在羽咋市数据的外部验证中,全年龄LGBM模型在40–60岁人群中AUC最高,而年龄特异性模型在70岁及以上人群中表现更优。其他模型如TabNet和VAE在某些年龄段特异性较高,但敏感性和AUC普遍较低,说明不同模型在性能上存在权衡。

讨论与结论

该研究首次开发了针对不同年龄层的糖尿病预测模型,证实了年龄优化策略在提升预测准确性方面的有效性。其中,LGBM作为梯度提升决策树模型,在处理复杂数据和缺失值方面表现突出;而异常检测方法(如IF和VAE)在低患病率年龄段展现潜力,较好地缓解了数据不平衡问题。研究还通过外部验证验证了模型的泛化能力,为糖尿病早期筛查提供了更可靠的工具。

然而,研究仍存在一定局限:外部验证仅基于单一地区数据,样本量和人群多样性有限;未涵盖40岁以下人群,且未区分糖尿病类型(如1型与2型);各年龄组样本量和患病率不平衡可能影响模型稳定性。未来需在更广泛人群中验证模型,扩展至年轻群体,并引入可解释性分析(如SHAP)明确不同年龄的关键预测因子。

总之,该研究通过融合多种机器学习与异常检测算法,实现了糖尿病预测的年龄精细化建模,为临床实践和公共卫生干预提供了有力工具。未来前瞻性研究可进一步评估该模型在主动健康指导与糖尿病预防中的应用效果。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号