基于多目标遗传算法与深度集成学习的心血管疾病预测模型研究
《Scientific Reports》:Biodata-centric cardiovascular disease prediction using multi-objective genetic algorithm-driven deep ensembles
【字体:
大
中
小
】
时间:2025年12月06日
来源:Scientific Reports 3.9
编辑推荐:
本研究针对心血管疾病(CVD)预测中传统模型难以平衡准确性、冗余度和可解释性等问题,提出了一种创新的两阶段框架。研究人员通过多目标遗传算法(MOGA)优化特征选择,结合多层感知器(MLP)集成学习,在UCI克利夫兰数据集上实现了96.4%的准确率和0.978的AUC-ROC。该研究首次建立了MOGA与深度学习间的语义链接,为临床决策支持提供了更可靠的工具。
心血管疾病是全球范围内导致死亡的主要原因,早期准确预测对降低死亡率至关重要。然而,传统预测模型往往面临诸多挑战:需要平衡分类准确性、特征冗余度、模型可解释性等多个相互冲突的目标;临床数据通常存在类不平衡问题,且特征之间具有高度相关性;单目标优化方法难以同时满足这些临床需求。
为了解决这些难题,来自亚历山大大学的研究团队在《Scientific Reports》上发表了创新性研究。他们开发了一种基于多目标遗传算法(MOGA)驱动的深度集成学习框架,实现了心血管疾病预测的突破性进展。
本研究采用了多项关键技术方法:首先使用UCI克利夫兰心脏病数据集(303例患者,13个临床特征)进行数据预处理和统计特征提取;然后应用MOGA进行多目标特征选择,同时优化分类准确率、特征冗余度、可解释性和类不平衡敏感性;基于帕累托最优特征子集训练多个正则化MLP构成深度集成模型;最后通过AdaBoost算法进行集成融合,增强模型鲁棒性。
通过比较传统流水线、级联方法和提出的语义反馈方法,发现语义集成方法在准确率(96.4%)、敏感性(95.1%)和AUC-ROC(0.978)上均显著优于其他方法,证明了MOGA与集成学习间语义链接的价值。
当同时优化准确性、冗余度、可解释性和不平衡处理四个目标时,模型达到94.6%的准确率和0.962的AUC-ROC,明显优于仅优化部分目标的方法。
使用四个帕累托最优特征子集训练的MLP集成模型实现了96.3%的集成准确率和0.974的AUC-ROC,证明了特征多样性对集成性能的重要贡献。
MOGA衍生的加权策略在准确率(96.7%)、AUC-ROC(0.976)和敏感性(94.9%)上均优于均匀加权和启发式加权方法。
将类不平衡敏感性直接集成到MOGA优化过程中,显著提高了少数类的F1分数(0.80)和G-Mean(0.89),证明了该框架在处理不平衡数据方面的优势。
与逻辑回归、随机森林、XGBoost等传统方法相比,提出的语义MOGA集成在多个指标上表现最优,同时仅使用6个特征,保持了良好的可解释性。
在加入10%-30%高斯噪声或缺失数据的情况下,模型性能下降幅度较小(准确率从96.3%降至91.4%),证明了其在真实临床环境中的实用性。
通过5折和10折交叉验证,模型表现出稳定的性能(10折CV准确率96.1%±0.9%),验证了其良好的泛化能力。
消融实验显示,移除MOGA权重分配会导致准确率下降5.29%,证明各组件对整体性能均有重要贡献。
在UCI匈牙利和瑞士数据集上的测试结果表明,该框架在不同人群和数据分布下均保持稳定性能,证明了其广泛的适用性。
比较MOGA、MOPSO(多目标粒子群优化)和MODE(多目标差分进化)三种优化器,MOGA在超体积(0.82)、反向世代距离(0.045)等指标上均表现最优,证明了其收敛性和解质量的优越性。
通过SHAP(沙普利加和解释)和LIME(局部可解释模型-agnostic解释)分析显示,模型预测与临床相关知识高度一致,胸痛类型、ST段压低等关键特征被正确识别为重要预测因子。
完整的多目标优化流程在标准工作站上约需210秒,内存使用低于4GB,表明该框架在临床环境中的实际部署可行性。
研究结论表明,这种语义集成的MOGA-MLP框架不仅显著提高了预测性能,还通过紧凑的特征子集(仅6个特征)增强了模型的可解释性,为临床医生提供了更透明、可信的决策支持工具。该研究的创新点在于首次建立了MOGA与深度学习之间的语义链接,使特征选择过程能够直接指导集成学习组件的训练,形成了协同优化的闭环系统。
讨论部分强调,该框架成功解决了心血管疾病预测中的多个关键挑战:通过多目标优化平衡了临床优先级冲突,通过集成学习提高了模型鲁棒性,通过语义集成增强了可解释性。尽管存在数据集规模有限等局限性,但该研究为未来开发更智能、更可靠的医疗AI系统奠定了重要基础,特别是在结合多模态数据和扩展应用到其他疾病领域方面具有广阔前景。
这项研究的重要意义在于它将优化理论与深度学习有机融合,为心血管疾病预测提供了新的方法论框架,同时也为其他医学预测任务提供了可借鉴的技术路线。随着医疗AI向更精准、更可信的方向发展,这种兼顾性能与可解释性的方法将在临床实践中发挥越来越重要的作用。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号