scGALA:基于图链接预测的细胞对齐新方法推动单细胞多组学数据全面整合与协调

《Nature Communications》:scGALA advances graph link prediction-based cell alignment for comprehensive data integration and harmonization

【字体: 时间:2025年11月27日 来源:Nature Communications 15.7

编辑推荐:

  单细胞技术面临跨数据集细胞对齐的重大难题。研究人员开展scGALA主题研究,创新性地将细胞对齐重构为图链接预测问题,结合图注意力网络和评分驱动优化策略。结果表明该方法在批次校正、标签转移、多组学整合和空间对齐等任务中均显著提升性能,最高提升67.8%的聚类精度,为单细胞数据分析提供了通用增强框架。

  
随着单细胞技术的飞速发展,研究人员现在能够从单个细胞中获取多种模态的分子数据,包括转录组、表观基因组、蛋白质组和空间信息。这种技术革命使我们能够在前所未有的分辨率下探索细胞异质性和功能。然而,这种技术飞跃也带来了一个基本挑战:如何准确对齐和整合来自不同条件、批次或模态的数据集,同时保持生物学相关性。
当前的单细胞数据分析方法在细胞对齐方面存在显著局限性。线性方法如典型相关分析(CCA)在数据集具有相似线性结构时计算高效,但往往无法捕捉细胞状态背后复杂的非线性生物学关系。非线性方法如相互最近邻(MNN)更适合检测表达空间中的局部对应关系,但在对齐存在显著技术变异的跨模态或条件数据时仍然困难。更重要的是,这两种方法通常仅依赖于表达衍生的特征,未能充分利用空间坐标或已知生物学关系等辅助信息。
在这项发表于《Nature Communications》的研究中,由McGill大学的Jun Ding和上海交通大学医学院的Hui Wang共同领导的研究团队开发了scGALA(单细胞图注意力链接预测对齐),这是一个基于图学习的计算框架,将细胞对齐问题重新定义为图链接预测任务。scGALA通过结合图注意力网络和评分驱动的任务无关优化策略,构建了丰富的细胞-细胞关系图,并通过对图链接预测进行训练,识别和强化跨数据集的高可信度对应关系。
研究团队采用了多项关键技术方法开展此项研究。他们使用了来自NASA开放科学数据仓库的Rodent Research-3数据集,该数据集包含21,178个小鼠脑细胞的匹配单细胞RNA测序和ATAC测序数据,以及来自对侧半球的29,770个点的空间分辨转录组数据。技术核心包括图注意力网络(GAT)进行细胞关系建模、变分图自编码器(VGAE)结构学习细胞-细胞关系、基于评分的搜索算法优化对齐预测,以及专门设计的损失函数平衡多个训练目标。评估框架采用了调整兰德指数(ARI)、标准化互信息(NMI)和平均轮廓宽度(ASW)等标准化指标,确保结果可比性。
scGALA实现多任务一体化单细胞数据整合与协调
研究团队首先全面评估了scGALA作为一体化分析流程的核心能力。在批次校正应用中,scGALA显著提升了Seurat的批次校正能力,同时保留了生物信号。与标准Seurat相比,scGALA增强的结果在调整兰德指数(ARI)上平均提高了14.7%,在标准化互信息(NMI)上提高了7.7%。在标签转移应用中,scGALA提高了参考数据集和查询数据集之间的细胞类型注释准确性,总体准确度平均提高了52.8%,Cohen's kappa值提高了66.8%。对于多组学整合,scGALA增强了scCross整合scRNA-seq和scATAC-seq谱的能力,生物保守性指标包括ARI、NMI和ASW均显示显著增加。在空间对齐应用中,scGALA通过利用分子谱和空间信息,显著改善了STAligner的性能,基于切片和真实区域标签的整合表征中间结果,NMI提高了19.5%,切片特异性ASW评分提高了16.7%。
scGALA通过增强细胞对齐提升多种方法性能
研究表明,scGALA可作为通用增强模块提升现有单细胞数据分析方法的性能。在批次校正方面,scGALA增强的方法相比原始实现平均提高了29.7%的ARI和17.0%的NMI。在标签转移评估中,所有测试方法在应用scGALA后都显示出标记改善,总体分类准确度平均提高了6.1%,Cohen's kappa提高了19.2%。对于多组学整合,scGALA增强的方法在ARI上平均提高了19.3%,在NMI上提高了13.6%。在空间对齐评估中,scGALA产生了空间对齐准确度的平均19.2%改善和NMI的11.5%改善。
scGALA推进嵌合多组学整合
scGALA解决了单细胞领域的一个重要挑战——嵌合整合,即将分离的双组学数据集整合成全面的"三组学"或更高阶的多模态表征。研究人员使用CITE-seq数据集和PBMC Multiome数据集进行整合过程,结果显示scGALA的混淆矩阵表现出更强的对角线富集,CD4 T细胞亚群明显受益于更准确的对齐。独特的对齐结果平均精度为0.723和0.737,显著高于MNN对齐的精度(0.581和0.562)。ROC分析显示,scGALA独特对齐实现了0.774的AUROC值,优于MNN的0.715。
scGALA实现跨模态插补和生成
scGALA实现了从染色质可及性数据准确生成RNA表达谱的能力。评估显示,从ATAC-seq输入数据生成的RNA谱在不同细胞类型中与真实RNA测序测量值显示出强烈的平均表达水平相关性(Pearson相关系数=0.93)。生成的RNA谱保持了细胞类型的全局结构及其关系,基于真实注释的ARI值分别为0.68和0.67。基因本体生物过程(GOBP)富集分析显示,生成的和真实RNA谱的GOBP术语富集分数相关性达到0.87。CellChat衍生的相互作用强度分析显示,生成数据与真实RNA数据在细胞分泌信号和细胞-细胞接触相互作用预测方面具有强相关性(Pearson相关系数=0.94)。
scGALA提高空间分辨转录组学数据的基因覆盖度
scGALA开发了一种基因插补方法,通过整合参考RNA测序数据集中的信息来增强空间转录组学数据中的基因覆盖度。使用包含14,630个基因的真实数据集,研究人员模拟稀疏输入数据仅选择500个高变基因,然后使用scGALA的参考引导方法插补额外的1,050个基因。UMAP可视化显示,scGALA成功恢复了底层细胞类型结构。即使仅使用插补基因也产生了0.49的ARI,与具有0.52 ARI的真实数据非常接近。细胞类型特异性标记基因恢复的Pearson相关分析显示,插补和真实表达值之间的相关系数为0.96。全面的GOBP富集分析表明,scGALA插补数据不仅保留了现有功能特征,而且与仅使用测量基因相比增强了通路检测能力。
研究结论表明,scGALA通过将细胞对齐重新构想为图链接预测问题,为单细胞数据对齐和整合的挑战提供了统一、基于图的解决方案。其核心贡献在于其对单细胞整合的通用增强,既可作为插件模块,也可作为启用新分析能力的独立工具。除了改进现有工作流程外,scGALA还提供了先进的多种组学功能,包括嵌合整合策略、跨模态生成能力和空间转录组学增强。尽管scGALA已证明有效,但其关键限制在于对从MNN或CCA等方法得出的初始锚点的依赖。未来方向是转向概率图构建框架,为每个潜在对齐链接分配置信度分数。通过为单细胞数据对齐和整合的挑战提供统一、基于图的解决方案,scGALA使研究人员能够从日益复杂和多模态的数据集中获取最大价值。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号