SIGEL:基于空间基因组上下文感知的基因表示学习框架突破空间转录组学分析瓶颈

【字体: 时间:2025年09月24日 来源:Genome Biology 9.4

编辑推荐:

  为解决空间转录组学(ST)中缺乏高效、鲁棒的基因表示学习方法的问题,研究人员开发了SIGEL框架,通过掩码图像模型和对比学习生成空间感知的基因表示(SGRs)。该框架能有效识别空间共表达基因簇、实现跨样本基因对齐、识别疾病相关基因及互作,并提升FISH-based ST数据的转录组覆盖度和空间聚类效果,为空间基因组学研究提供了强有力的新工具。

  

随着空间转录组学(Spatial Transcriptomics, ST)技术的快速发展,研究人员现在能够同时获取基因表达数据和空间位置信息,为理解组织异质性、细胞间相互作用以及疾病发生机制提供了前所未有的机会。然而,如何从海量的空间转录组数据中提取有生物学意义的基因特征,并用于下游分析任务,仍然是一个巨大的挑战。现有的基因表示学习方法大多基于单细胞RNA测序(scRNA-seq)数据,忽略了基因在空间上的共表达模式和功能关联,导致生成的基因嵌入缺乏空间上下文信息,难以直接应用于空间转录组数据分析。

更具体地说,当前面临三个主要问题:第一,缺乏专门针对空间转录组数据设计的基因表示学习框架;第二,由于技术噪音和批次效应的存在,跨样本的基因比对和分析困难重重;第三,基于荧光原位杂交(FISH-based)的ST技术虽然分辨率高,但转录组覆盖度有限,如何准确推断未检测基因的表达模式是一个长期未解决的难题。此外,识别空间可变基因(Spatially Variable Genes, SVGs)和改善空间聚类效果也是空间转录组分析中的关键挑战。

为了解决这些问题,来自中国和美国的合作研究团队在《Genome Biology》上发表了题为"SIGEL: a context-aware genomic representation learning framework for spatial genomics analysis"的研究论文,开发了一个创新的上下文感知基因组表示学习框架SIGEL(Spatially Informed Gene Embedding Learning)。该框架通过整合掩码图像模型和对比学习技术,成功生成了具有空间上下文意识的基因表示(SIGEL-generated Gene Representations, SGRs),并在多个下游分析任务中展现了卓越性能。

研究人员采用了几项关键技术方法:首先,他们使用了12个人类背外侧前额叶皮质(10x-hDLPFC)和1个小鼠海马(Slide-seqV2)空间转录组数据集作为训练和验证数据;其次,开发了基于掩码自编码器(MAE)的基因图像表示学习模块,将基因空间表达图转换为嵌入向量;然后,采用学生t混合模型(SMM)对嵌入进行建模,识别空间共表达的基因簇;最后,通过自步伪对比学习优化基因嵌入,提高其判别能力。这些方法共同构成了SIGEL框架的核心技术体系。

SIGEL识别空间共表达基因簇作为生物学相关的基因组上下文

研究表明,SIGEL能够有效识别具有生物学意义的空间共表达基因簇。通过可视化分析发现,同一簇内的基因表现出高度一致的空间表达模式。使用Davies-Bouldin(DB)指数进行定量评估显示,SIGEL在识别空间共表达基因簇方面显著优于CNN-PReg、Giotto、Spark和STUtility等现有方法。进一步的基因通路富集和共功能分析表明,SIGEL识别出的基因簇富含病理学/生物学相关的基因本体生物过程(GOBP),且成员基因在功能上具有高度一致性,证实了这些簇作为空间基因组上下文的合法性。

SGRs有效捕捉基本基因语义

通过四项分析验证了SGRs在捕获功能性和关系性语义方面的卓越能力。首先,基于HLA-I、HLA-II和KRT-II基因家族的层次聚类显示,SGRs能够很好地将同一家族的基因聚集在一起,功能相关的基因家族在层次结构中的位置更加接近。其次,在不同分辨率水平下的通路富集分析表明,SGRs衍生的簇中富含通路基因的比例 consistently高于基准方法。第三,SGRs与GO Resnik相似性的相关性最高(约0.18),而忽略基因组上下文的DCA表现最差(约0.01)。最后,在基因-基因相互作用预测中,SGRs在预测准确率和AUC方面均优于所有基准方法,且生成的热图与真实情况最为接近。

SGRs促进跨样本基因对齐

研究发现SGRs对技术噪音具有强鲁棒性,能够有效促进跨样本基因对齐。通过SGR对齐网络(SAN)对齐来自两个健康人类中颞回(MTG)数据集的SGRs,发现SGR对之间的差异显著低于UMAP嵌入对之间的差异。PCA可视化显示,来自不同数据集的SGRs比UMAP嵌入更加均匀地混合,表明SGRs优先捕获真实的基因语义而非技术噪音,从而实现了更准确的跨样本基因对齐。

利用SGRs识别疾病相关基因和基因串扰

研究提出了基于参考和无参考两种策略来识别疾病相关基因和基因相互作用。基于参考的方法通过SAN介导的基因对齐,发现阿尔茨海默病(AD)相关基因在健康和疾病状态间的SGRs表现出显著更大的PCA距离和缩放余弦不相似性。基于SGR的相关性分析还揭示了AD中基因相互作用的改变,参与相同AD相关通路的基因对在AD数据集中的相关性显著增加。无参考方法SIGEL-SPS则通过创建具有指定空间表达模式的伪基因,成功识别出与癌症和AD相关的基因,这些基因表现出预期的空间表达模式。

基于SGR的FISH-based ST转录组覆盖度增强

研究人员开发了SIGEL-ETC,一种基于SGR的生成对抗网络(GAN)模型,用于增强FISH-based ST数据的转录组覆盖度。与Tangram、SpaGE、SpaOTsc、stAI和SpatialScope等基准方法相比,SIGEL-ETC在重现基因空间表达模式和数据尺度方面表现更优,生成的基因与真实值具有更高的相关系数和更低平均绝对误差。通过SIGEL-ETC估算的基因进行空间聚类,获得了比原始数据集或基准方法估算基因更高的准确率。

基于SGR的SVG检测

开发的SIGEL-SVG方法利用SGRs检测空间转录组数据集中的空间可变基因(SVGs)。通过计算每个基因的SGR与模拟的空间同源基因的相似性,得出空间变异性评分,然后根据这些评分对基因进行排序和选择。在10x-hDLPFC-151507和10x-hBC数据集上的评估表明,SIGEL-SVG选择的SVGs比SPARK、SPARK-X和SpatialDE等基准方法选择的基因具有更高的空间变异性,且能更有效地区分不同水平的空间变异性。

SGR改进的空间聚类

SIGEL-ISC方法通过优化空间转录组数据的信息效率来改进空间聚类。该方法通过SGR相似性矩阵揭示基因间的冗余信息,并通过仅保留每组高度相似基因中最具判别性的基因来减少冗余信息。在12个10x-hDLPFC数据集上的综合评估显示,SIGEL-ISC在调整兰德指数(ARI)和标准化互信息(NMI)得分方面 consistently优于GraphST、SpaGCN和Leiden等基准方法,更准确地恢复了注释的解剖皮层层。

复杂度和敏感性分析

研究表明SIGEL的计算复杂度近似为O(N),其中N是空间基因图的数量,表现出良好的可扩展性。在超参数敏感性分析中,发现80%的掩码比率、64维的SGR嵌入、450-750个SMM簇和λ1=0.3的重建损失权重能提供最佳性能。

本研究开发的SIGEL框架代表了空间转录组学分析方法的重大进展。通过有效整合空间表达模式到基因表示中,SIGEL生成的SGRs不仅捕获了丰富的功能性和关系性语义,而且对技术噪音表现出强鲁棒性,实现了准确的跨样本基因对齐。研究证明SGRs在多种下游分析任务中都具有卓越性能,包括识别疾病相关基因和基因串扰、检测空间可变基因、增强FISH-based ST数据的转录组覆盖度以及改进空间聚类效果。

SIGEL的创新性在于其将掩码图像模型与对比学习相结合的方法学框架,以及使用学生t混合模型对基因嵌入进行建模的灵活性。这种设计使SIGEL能够同时捕获局部基因上下文语义和全局基因语义,生成具有高度判别性的基因表示。更重要的是,SGRs优先捕获生物学变异而非技术噪音的特性,使其在跨样本和跨条件分析中具有独特优势。

该研究的实际意义在于提供了一套完整的分析工具和方法体系,能够解决空间转录组学中的多个关键挑战。特别是SIGEL-ETC方法为增强FISH-based ST数据的转录组覆盖度提供了新思路,避免了传统方法依赖于scRNA-seq数据带来的系统偏差。而SIGEL-SVG和SIGEL-ISC方法则分别为SVG检测和空间聚类提供了更有效的解决方案。

值得注意的是,SIGEL框架的成功也证明了将计算机视觉和自然语言处理中的先进技术 adapt到基因组学领域的巨大潜力。类似于词向量在自然语言处理中的应用,基因嵌入有望成为基因组学分析的基础工具,支持更复杂的生物医学发现。

未来,SIGEL框架可能通过整合多模态数据得到进一步扩展,例如结合scRNA-seq中的基因共表达模式和细胞类型特异性空间基因图谱,丰富SGRs的信息内容。此外,将全局SVG检测扩展到细胞类型特异性SVG检测也是一个有前景的方向。

总之,SIGEL框架不仅为空间转录组学分析提供了强有力的新工具,而且为建立基因组"语言"分析方法生态系统奠定了坚实基础,有望加速未来的生物学和生物医学发现。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号