
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于图神经网络(GNN)的卒中后心房颤动风险预测模型:一种集成自定义相似性度量与注意力机制的新方法
【字体: 大 中 小 】 时间:2025年09月19日 来源:Computers in Biology and Medicine 6.3
编辑推荐:
本研究针对卒中后心房颤动(AF)风险预测中传统机器学习方法难以捕捉患者间复杂关联的问题,开发了基于图神经网络(GNN)的新型预测模型。通过构建以患者医疗诊断相似性为基础的图结构,并创新性提出自定义相似性度量方法,研究显示图注意力网络(GAT)模型在AUC(0.84[0.81–0.87])、准确率(0.80)等指标上显著优于随机森林(AUC 0.78)等传统算法。该研究为临床AF风险分层提供了更精准的决策支持工具,凸显了图神经网络在挖掘医疗数据复杂关系方面的独特价值。
在全球范围内,卒中已成为导致长期残疾和死亡的主要疾病之一,目前有超过1.01亿人生活在卒中的影响下,这一数字在过去30年中翻了一番。更令人担忧的是,约63%的卒中病例发生在70岁以下人群。心房颤动(Atrial Fibrillation, AF)作为最常见的持续性心律失常,是缺血性卒中的重要诱因,影响着全球约5900万人。当卒中与AF相关时,通常病情更为严重,这使得识别卒中后AF风险对于预防复发至关重要。值得注意的是,每年约有150万新发AF病例发生在卒中之后。
传统上,统计方法(如逻辑回归)和机器学习算法(如随机森林、XGBoost)被用于开发不良临床事件的风险预测模型。然而,这些方法存在明显局限:它们往往无法充分捕捉或利用患者之间可能存在的联系(如共享相似特征),通常孤立地处理卒中风险因素或以二元(是/否)方式进行处理。这些算法通常假设每个患者完全独立于其他患者,忽略了医疗实践中患者间可能存在的复杂关联。
为突破这些限制,研究人员开展了一项创新性研究,成果发表在《Computers in Biology and Medicine》。该研究基于Medical Information Mart for Intensive Care (MIMIC)-IV数据库,构建了一个基于图神经网络(Graph Neural Networks, GNNs)的风险预测模型,专门用于预测危重症卒中患者发生AF的风险。
研究团队采用了几个关键技术方法:从MIMIC-IV数据库(v2.2)提取了1,949名卒中患者的综合数据,包括人口统计学信息、诊断记录(ICD-10编码)、入院24小时内生命体征和血液检测平均值,以及AF发生情况;创新性地提出了自定义相似性度量方法,通过计算患者间共享诊断数量与最大诊断数的比值来构建图结构的邻接矩阵,优于传统的余弦相似性方法;采用图卷积网络(GCN)和图注意力网络(GAT)两种GNN架构,其中GAT通过注意力机制加权聚合邻居节点信息;使用Optuna超参数优化框架进行模型调优,同时评估了节点特异性SHAP值分析和基于GAT注意力系数的节点关系等多种模型可解释性方法。
研究结果方面,"3.1. Resulting dataset"显示最终数据集包含1,949名卒中患者,其中12%在ICU入院24小时后发生AF,88%未发生,数据存在明显不平衡性。"3.2. Base model optimal hyperparameters"和"3.3. GNN model optimal hyperparameters"表明经过优化后,随机森林在传统模型中表现最佳,而GNN模型在图形优化和架构优化后获得了最佳参数配置,其中自定义相似性度量被证明优于余弦相似性方法。
"3.4. Model results"是研究的核心发现:GAT模型使用自定义相似性度量时表现最佳,AUC达到0.84[0.81–0.87],准确率为0.80,召回率为0.73,精确度为0.35,F1分数为0.47,特异性为0.81,全面优于所有传统机器学习模型;GCN模型使用自定义相似性度量也表现良好,AUC为0.81[0.78–0.84];使用自定义相似性度量的GNN模型在所有指标上均优于使用余弦相似性的对应模型。
"3.5. Feature importances"通过可解释性分析发现:传统模型中,格拉斯哥昏迷评分(GCS)、患者年龄和舒张压是最重要的预测特征;GCN模型显示特征重要性因患者而异,卒中诊断优先级、既往卒中入院次数和距上次入院天数等历史信息尤为重要;GAT模型中平均呼吸频率和患者历史数据同样重要,但特征重要性分布相对均匀,表明GAT更注重节点间关系而非单个特征。
"3.6. GAT attention visualisations"通过注意力可视化展示了GAT模型的工作原理:注意力系数高的节点在血压、血红蛋白、舒张压和呼吸频率等特征上呈现明显模式;t-SNE降维显示模型能够有效区分AF和非AF患者,证明了注意力机制在学习和区分不同患者群体方面的有效性。
研究结论与讨论部分强调,这项研究展示了GNNs在医疗风险预测中的巨大潜力,特别是在捕捉患者间复杂关系方面超越传统机器学习方法。自定义相似性度量的成功引入为图结构构建提供了新思路,其通过标准化处理诊断数量差异,更准确地反映了患者间的真实相似性。模型的可解释性分析不仅验证了预测结果的临床合理性(如发现呼吸频率、患者历史信息等与AF风险的相关性),还提供了患者特异性的解释,这对于临床应用至关重要。
该研究的方法论不仅限于AF预测,可推广至其他医疗风险预测场景,为个性化医疗管理提供了有力工具。特别是与欧洲TARGET项目等大型倡议的目标相一致,支持AF相关卒中的个性化管理。未来工作可探索多模态边定义(如整合生命体征、药物治疗等多源数据)以进一步丰富患者关系的表示,评估这是否能增强预测性能或可解释性。
总之,这项研究通过创新性地应用图神经网络和自定义相似性度量方法,为卒中后心房颤动风险预测提供了更准确、可解释的解决方案,展示了人工智能在挖掘复杂医疗数据关系方面的独特价值,为临床决策支持系统的发展指明了新方向。
生物通微信公众号
知名企业招聘