基于图神经网络与定制相似性度量的卒中后房颤风险预测模型研究及其临床意义

【字体: 时间:2025年09月19日 来源:Computers in Biology and Medicine 6.3

编辑推荐:

  本研究针对卒中后房颤(AF)风险预测中传统机器学习方法忽视患者间关联的问题,创新性地构建了基于图神经网络(GNN)的预测模型。通过采用自定义患者相似性度量方法,成功将图卷积网络(GCN)和图注意力网络(GAT)应用于MIMIC-IV数据库,实现了AUC达0.83的精准预测,为临床提供可解释的个体化风险评估工具。

  

在全球范围内,卒中已成为导致长期残疾和死亡的主要病因之一,而房颤(Atrial Fibrillation, AF)作为最常见的持续性心律失常,更是缺血性卒中的重要诱因。令人担忧的是,约20%的缺血性卒中患者入院时已确诊AF,另有10-20%的患者可能在住院期间通过心电监测新发现AF。由于AF相关卒中通常病情更严重、预后更差,早期识别AF高风险患者对预防卒中复发具有重大临床意义。

传统机器学习方法如逻辑回归、随机森林等虽已应用于AF风险预测,但这些模型通常将患者视为独立个体,忽视了患者间可能存在的临床特征关联。这种"孤立分析"的局限性促使研究人员探索能捕获复杂关系的新方法。图神经网络(Graph Neural Networks, GNNs)的出现为解决这一问题提供了新思路,其能够通过节点间的连接关系学习节点表征,特别适合处理具有内在关联性的医疗数据。

在这项发表于《Computers in Biology and Medicine》的研究中,研究团队创新性地将图神经网络技术应用于卒中后房颤风险预测。他们利用MIMIC-IV数据库中1,949例卒中患者的临床数据,包括人口统计学特征、生命体征、实验室检查结果和医疗诊断信息,构建了一个患者关系图网络。每个患者代表图中的一个节点,节点间的边则基于患者诊断相似性建立。

研究采用了几项关键技术方法:首先从MIMIC-IV数据库(v2.2)提取卒中患者数据;其次提出了创新的自定义相似性度量方法,通过计算患者间共享诊断数量与最大诊断数的比值来构建图结构;然后分别建立了图卷积网络(GCN)和图注意力网络(GAT)模型;最后使用Optuna框架进行超参数优化,并通过SHAP值和注意力可视化实现模型可解释性分析。

3.1. 结果数据集

研究最终纳入1,949例卒中患者,其中AF阳性患者占12.3%。数据集包含37%以上的变量存在显著缺失值,缺失率最高达98%。所有连续变量和分类变量均经过详细统计描述,确保了数据质量。

3.2. 基础模型最优超参数

通过5折交叉验证确定了传统模型的最优超参数。逻辑回归使用L2惩罚项和C=100;XGBoost设置最大深度为2、树数量200、学习率0.01;随机森林采用100棵树、最大特征数为平方根、最大深度4和基尼准则。

3.3. GNN模型最优超参数

图结构优化结果显示,GCN和GAT模型均选择自定义相似性方法效果最优,分别保留446和313个诊断,相似性阈值分别为0.205和0.218。模型架构方面,GCN使用4层网络和57个隐藏通道,而GAT采用2层网络和56个隐藏通道,两者Dropout率分别为0.44和0.60。

3.4. 模型结果

性能比较表明,GNN模型全面优于传统方法。GAT[自定义]模型表现最佳,AUC达到0.83(95%CI: 0.81-0.87),准确率0.80,召回率0.73,精确度0.35,F1分数0.47,特异性0.81。值得注意的是,自定义相似性方法显著优于余弦相似性,使GCN和GAT的AUC分别提高0.05和0.06。

3.5. 特征重要性

3.5.1. 基础模型:随机森林的SHAP分析显示格拉斯哥昏迷评分(GCS)、年龄和舒张压是最重要预测因子。GCS运动评分越高,AF风险越低;年龄越大,AF风险越高。

3.5.2. GCN模型:节点特异性分析发现不同患者的特征重要性存在显著差异。对于节点218,卒中诊断优先级最重要;而对节点1643,既往卒中入院次数最关键。这种个体化特征重要性分布体现了GNN模型的优势。

3.5.3. GAT模型:特征重要性分布相对均匀,呼吸频率均值成为最显著预测因子,这与AF患者常伴有呼吸异常临床观察一致。

3.6. GAT注意力可视化

通过分析节点218的注意力权重,发现节点1389、875、568、1329和1277与其最相关。这些节点在血压、血红蛋白和呼吸频率等指标上呈现规律性差异:AF患者普遍表现为较低血压和血红蛋白水平,以及较高呼吸频率。t-SNE降维可视化进一步证明GAT模型能有效按AF状态分离患者群体。

本研究得出结论:图神经网络特别是采用自定义相似性度量的GAT模型,能显著提升卒中后房颤风险预测性能。该方法通过捕获患者间复杂关系,实现了AUC 0.83的预测准确率,比最佳传统模型提高5%。研究的创新点在于提出了针对医疗数据特性的相似性度量方法,解决了余弦相似性在诊断数据中的局限性。

更重要的是,该研究提供了多层次模型解释方法:通过节点特异性SHAP分析揭示个体化风险因素,通过注意力机制可视化患者间关联模式。这为临床医生理解模型决策过程提供了透明化工具,有助于建立医工协作的信任基础。

该方法论不仅适用于AF预测,还可推广到其他临床结局预测任务中。研究成果对推进个性化医疗具有重要意义,为大规模医疗数据库的深度挖掘提供了新范式,最终有望改善卒中患者的管理策略和临床结局。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号