基于图神经网络(GNN)的中风后心房颤动风险预测:一种新型定制相似性度量与可解释性分析框架

【字体: 时间:2025年09月19日 来源:Computers in Biology and Medicine 6.3

编辑推荐:

  本研究针对传统机器学习方法在中风后房颤(AF)风险预测中难以捕捉患者间复杂关联的问题,创新性地构建了基于图神经网络(GNN)的预测模型。研究人员利用MIMIC-IV数据库,通过提出的定制相似性度量方法构建患者关系图,采用图卷积网络(GCN)和图注意力网络(GAT)进行训练。结果表明,GAT模型表现最优(AUC=0.84),显著优于随机森林(AUC=0.78)等传统方法。该研究不仅提高了预测精度,还通过节点特异性Shapley值分析和注意力系数可视化增强了模型可解释性,为临床AF风险预测提供了新思路。

  

中风是全球致残和致死的主要原因之一,近年来患病人数翻倍,约63%的病例发生在70岁以下人群。中风后患者常面临多种心血管并发症风险,其中心房颤动(Atrial Fibrillation, AF)是最常见的心律失常,更是缺血性中风的重要诱因。全球约5900万人受AF影响,每年约有150万新发AF病例与中风相关。值得注意的是,AF相关的中风通常更为严重,因此及时识别中风后AF风险对预防复发至关重要。

然而,传统统计方法和机器学习算法(如逻辑回归、随机森林等)在开发AF风险预测模型时存在明显局限。这些方法通常假设患者间完全独立,未能充分利用患者间可能存在的关联(如共享相似临床特征)。此外,它们往往以孤立或二元方式处理中风风险因素,难以捕捉复杂的交互作用。临床实践中,约10%的缺血性中风患者通过标准诊断检查发现新发AF,另有10%可通过延长监测诊断,但仍有相当比例患者漏诊,错失抗凝治疗等关键干预时机。

为突破这些限制,Cristian Y. Rivera-Juzga等研究人员在《Computers in Biology and Medicine》发表了一项创新研究,开发了一种基于图神经网络(Graph Neural Networks, GNNs)的框架,用于预测危重中风患者的AF风险。该研究利用Medical Information Mart for Intensive Care (MIMIC)-IV数据库(v2.2)中1949名中风患者的数据,构建了以患者为节点、以医疗诊断相似性为边的图结构,重点比较了图卷积网络(Graph Convolutional Networks, GCN)和图注意力网络(Graph Attention Networks, GAT)的性能。

研究采用的关键技术方法包括:1)从MIMIC-IV数据库中提取中风患者数据(包括ICD-10诊断编码、人口统计学、入院24小时内生命体征和血液检验平均值、AF发生情况等);2)提出一种新型定制相似性度量方法(与余弦相似度对比)用于构建患者关系图;3)使用Optuna超参数优化框架进行图结构和GNN架构的调优;4)采用GNNExplainer和注意力可视化等技术增强模型可解释性;5)通过ROC曲线、SHAP值、t-SNE降维等多维度评估模型性能。

2.3. Graph construction

研究人员将每位患者视为图中的一个节点,节点特征包括人口统计学、实验室检验和生命体征数据。边的构建基于患者间诊断的相似性,使用两种方法计算相似度矩阵:传统的余弦相似度和本研究提出的定制相似性度量。定制方法通过计算两患者共享诊断数量除以两者中最大诊断总数,得到更个体化的相似系数,有效避免了诊断数量较多患者固有的相似度偏差。最终通过优化阈值确定是否创建边,形成无向未加权的图结构。

3.4. Model results

模型比较结果显示,GNN模型普遍优于传统机器学习方法。最佳性能的GAT模型(使用定制相似性)AUC达到0.84(95%CI: 0.81-0.87),准确率0.80,召回率0.73,精确度0.35,F1分数0.47,特异性0.81。相比之下,性能最好的传统模型随机森林AUC为0.78(95%CI: 0.74-0.82)。值得注意的是,使用定制相似性度量的GCN和GAT模型性能均显著优于使用余弦相似度的版本,表明提出的相似性计算方法有效提升了模型表达能力。

3.5. Feature importances

通过SHAP值和GNNExplainer分析特征重要性,发现不同模型间存在差异。随机森林模型中,格拉斯哥昏迷评分(GCS)、年龄和舒张压是最重要预测因子。而在GCN模型中,特征重要性呈现明显的患者特异性:对患者218,中风诊断优先级最重要;对患者1643,既往中风入院次数最关键。GAT模型由于注意力机制更关注节点间关系,所有特征重要性得分相对接近,但平均呼吸频率、患者历史数据(如上次入院天数)等仍显示出较高重要性。

3.6. GAT attention visualisations

注意力可视化揭示了GAT模型的工作原理。以节点218为例,其最相关的五个节点中,三个同为AF患者,两个为非AF患者。通过比较这些患者的临床特征,发现AF患者普遍具有较低血压、血红蛋白和舒张压,以及较高呼吸频率。注意力系数最高的节点1389与节点218在血红蛋白值上高度相似,表明模型能有效识别临床特征相似的患者群体。t-SNE降维可视化进一步显示,模型最终注意力层的节点嵌入能够较好区AF和非AF患者。

该研究的结论部分强调,GNNs特别是GAT模型,在中风后AF风险预测中表现出显著优势,其成功源于能够捕捉患者间复杂关系的能力。提出的定制相似性度量方法通过考虑诊断数量差异和共享诊断情况,比传统余弦相似度更适用于医疗图结构构建。研究还展示了多种可解释性技术(节点特异性SHAP分析、注意力可视化等)在医疗AI中的价值,使临床医生能够理解模型决策依据并识别重要特征模式。

这项研究的重要意义在于:其一,为AF风险预测提供了更准确的工具,有望改善中风患者管理并预防复发;其二,提出的方法论不仅限于AF预测,可推广至其他临床风险预测场景;其三,通过可解释性分析增强了医生对AI模型的信任和接受度;其四,为个性化医疗提供了技术支持,通过患者特异性特征重要性分析实现更精准的干预。该研究代表了医疗AI向更精准、可解释和临床实用方向发展的重要一步,最终有助于改善患者预后和医疗资源分配。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号