
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于图神经网络提升卒中后新发心房颤动预测的研究
【字体: 大 中 小 】 时间:2025年09月19日 来源:Computers in Biology and Medicine 6.3
编辑推荐:
本研究针对卒中后心房颤动(AF)风险预测中传统机器学习方法忽略患者间关联性的问题,创新性地构建基于医疗诊断相似性的患者关系图,采用图卷积网络(GCN)和图注意力网络(GAT)进行建模。结果表明,基于自定义相似性度量的GAT模型预测性能最优(AUC=0.84),显著优于随机森林等传统算法,为临床风险分层提供了可解释的智能化工具。
当血液供应突然中断导致脑组织损伤时,卒中这种严重的医疗事件便会发生。全球有超过1亿人承受着卒中后遗症的影响,且约63%的患者年龄低于70岁。更严峻的是,卒中患者常面临发生心血管事件的高风险,其中心房颤动(Atrial Fibrillation, AF)作为最常见的持续性心律失常,不仅是缺血性卒中的重要诱因,更会使卒中病情更加严重。据统计,每年约有150万卒中患者新发AF,但相当比例的患者因未确诊而错过最佳干预时机,导致复发卒中风险显著升高。
传统预测模型如逻辑回归、随机森林等机器学习算法,虽然被广泛应用于临床风险预测,但存在明显局限:它们通常假设患者之间完全独立,忽视了潜在的患者间关联性(如共享相似临床特征或病史)。这种简化处理可能丢失重要信息,影响模型预测精度和泛化能力。
为突破这一瓶颈,研究者们将目光投向图神经网络(Graph Neural Networks, GNNs)。这类模型能够显式建模对象间复杂关系,已在社交网络、生物信息学等多个领域展现出强大能力。具体到医疗领域,将患者视为图中的节点,并通过边表示患者之间的相似性,有望利用群体信息增强个体预测效果。
本研究基于MIMIC-IV重症监护数据库,纳入1949名卒中患者数据,涵盖诊断信息、 demographics、入院24小时内生命体征和实验室检验平均值等变量。研究团队创新性地提出了一种自定义的患者相似性计算方法,替代常用的余弦相似度,用以构建患者关系图。该方法通过计算患者间共有诊断数量与最大诊断数的比值,更好地处理了诊断数量不平衡带来的偏差。
在模型构建方面,研究人员系统比较了图卷积网络(GCN)和图注意力网络(GAT)与传统机器学习方法(逻辑回归、XGBoost和随机森林)的性能差异。通过Optuna框架进行超参数优化,确定了最佳图结构和模型参数配置。在模型可解释性方面,采用了节点特异性SHAP值分析和基于注意力系数的邻居关系可视化方法,为预测结果提供临床洞察。
关键技术方法包括:从MIMIC-IV(v2.2)提取卒中患者多模态数据;使用自定义相似性度量与余弦相似度两种方法构建患者关系图;采用GCN和GAT模型进行节点分类预测;通过Optuna进行超参数优化;使用SHAP和GNNExplainer进行特征重要性分析;利用t-SNE可视化注意力机制效果。
研究结果方面,数据集分析显示共纳入1949名卒中患者,其中12%在ICU入院24小时后发生AF事件。经过预处理后,最终保留37个临床变量和4129种诊断代码用于建模。
在模型性能比较中,GNN模型显著优于传统方法。最佳表现的GAT模型达到AUC 0.84[0.81-0.87],准确率0.80,召回率0.73,精确度0.35,F1分数0.47,特异性0.81。相比之下,随机森林(最佳传统模型)的AUC为0.78[0.74-0.82]。特别值得注意的是,使用自定义相似性度量的GNN模型性能明显优于使用余弦相似度的版本,证明图构建方法对模型效果的关键影响。
特征重要性分析揭示了不同模型间的差异。随机森林模型显示格拉斯哥昏迷评分(GCS)、年龄和舒张压是最重要预测因子。而在GCN模型中,特征重要性呈现患者特异性:对患者218而言,卒中诊断优先级最重要,而对患者1643,既往卒中入院次数最具预测价值。GAT模型则显示呼吸频率、血红蛋白水平和历史就诊数据的重要性,但不同患者间的特征重要性差异较小,表明GAT更注重通过注意力机制整合邻居信息。
注意力可视化分析以患者218为例,展示了五个最相关邻居节点及其注意力系数。通过比较这些患者的临床特征,发现AF患者普遍表现出较低的血压和血红蛋白水平,以及较高的呼吸频率,这些模式与医学知识一致,验证了模型的可解释性。
t-SNE降维可视化显示,GAT模型的最终注意力层能够有效区分AF与非AF患者,表明模型学习到了有区分度的患者表示。
讨论部分指出,本研究首次系统地将GNN应用于卒中后AF风险预测,并证明其相对于传统方法的优势。自定义相似性度量通过考虑诊断数量不平衡问题,提高了图构建质量。GAT模型的注意力机制不仅提升了预测性能,还提供了患者间关系的可视化解读,为临床决策支持提供了透明化工具。
研究的临床意义在于:首先,为卒中患者AF风险 stratification提供了更准确的工具;其次,患者特异性特征重要性分析有助于个性化医疗;最后,注意力权重的可视化使医生能够理解模型推理过程,增加临床可信度。该方法可扩展到其他疾病的风险预测场景,具有广泛的应用前景。
该研究也存在一些局限性:图中边仅基于诊断相似性构建,未纳入其他临床数据模态;未来可探索多模态图构建方法。此外,外部验证需要在其他数据集上进行以评估泛化能力。
综上所述,这项发表在《Computers in Biology and Medicine》的研究证明了图神经网络在医疗风险预测中的价值,特别是通过创新的相似性度量方法和注意力机制,实现了准确且可解释的卒中后AF预测,为智能医疗决策支持系统的发展提供了重要参考。
生物通微信公众号
知名企业招聘