空间转录组多切片整合与下游应用性能基准测试揭示方法选择依赖应用场景与技术平台
【字体:
大
中
小
】
时间:2025年09月30日
来源:Genome Biology 9.4
编辑推荐:
随着空间转录组技术发展,多组织切片数据整合需求日益增长,但方法可靠性参差不齐。本研究系统评估12种多切片整合方法在19个数据集上的四大任务表现,发现方法性能高度依赖应用场景、数据集规模和技术平台,并揭示上下游任务间的强关联性,为领域提供重要方法选择指南。
在生命科学研究领域,空间转录组技术的出现彻底改变了我们对组织结构的认知。这项技术不仅能够保留组织的空间背景信息,还能同时捕获基因表达数据,为研究胚胎发育、神经系统和肿瘤微环境等生物过程提供了全新视角。随着技术的不断进步,研究人员越来越多地从多个组织切片生成数据,这对多切片整合方法提出了日益增长的需求。这些方法旨在生成能够共同捕获空间和转录组信息的空间感知嵌入,在保留生物信号的同时减轻批次效应等技术伪差。
然而,当前的多切片整合方法可靠性参差不齐,且技术的多样化使得整合变得更加复杂。尽管已有一些研究试图建立空间转录组分析方法的基准测试,但这些研究或专注于单切片分析,或仅初步评估了少数几种方法。迄今为止,一个能够全面评估多切片整合方法在不同数据类型和下游应用中性能的综合基准测试框架仍然缺乏。
为了解决这一迫切需求,由Dong等研究人员在《Genome Biology》上发表了一项重要研究,他们开发了一个全面的基准测试框架,系统评估了12种最先进的多切片整合方法在19个来自七个不同来源的数据集上的表现,这些数据集代表了各种空间转录组技术。
研究团队采用了多层次的分析方法,涵盖了从上游到下游的四个关键任务:多切片整合、空间聚类、空间对齐和切片表征。每个任务都进行了详细分析,并提供了实用的方法选择建议。研究结果揭示了方法性能在不同任务间存在显著的数据依赖性变异,并进一步探讨了上游和下游任务之间的关系,表明下游性能往往依赖于上游质量。
在技术方法方面,研究人员收集了19个空间转录组学数据集,涵盖10X Visium、BaristaSeq、MERFISH和STARMap等多种技术平台。每个数据集包含至少两个来自相同或相似组织的切片,并配有域注释信息。研究评估了12种先进方法,包括四种基于深度学习的方法(GraphST、GraphST-PASTE、SPIRAL和STAIG)、五种统计方法(Banksy、CN、MENDER、PRECAST和SpaDo)以及三种混合方法(CellCharter、NicheCompass和STAligner)。
研究采用了多种评估指标:使用bASW、iLISI和GC评估批次效应去除效果;使用dASW、dLISI和ILL评估生物方差保存能力;使用ARI和NMI评估空间聚类准确性;使用CHAOS和PAS评估空间连续性;使用Accuracy和Ratio评估空间对齐性能。
在多切片整合任务评估中,研究人员发现不同方法的表现存在显著差异。基于10X Visium数据的分析显示,GraphST-PASTE在去除批次效应方面最为有效(平均bASW 0.940,平均iLISI 0.713,平均GC 0.527),但在保存生物方差方面表现较差。相反,MENDER(平均dASW 0.559,平均dLISI 0.988,平均ILL 0.568)、STAIG(平均dASW 0.595,平均dLISI 0.963,平均ILL 0.606)和SpaDo(平均dASW 0.556,平均dLISI 0.985,平均ILL 0.575)在保存生物方差方面表现优异。
MERFISH Brain数据集的分析显示,GraphST-PASTE、MENDER和CellCharter在去除批次效应方面最为有效,而NicheCompass、SpaDo和CellCharter在保存生物方差方面表现最佳。总体而言,CellCharter在所有MERFISH数据上表现出稳定且强大的性能,使其特别适合处理基于MERFISH技术的整合任务。
空间聚类是多切片整合后的直接分析步骤,为一系列下游应用奠定基础。研究结果显示,在10X Visium数据集上,Banksy(平均ARI 0.518)、STAligner(平均ARI 0.492)和SPIRAL(平均ARI 0.465)的空间聚类准确性最高。在空间连续性方面,SpaDo和STAligner产生低CHAOS和PAS分数,表明其聚类域具有高空间连续性。
MERFISH Brain数据集的分析表明,Banksy(平均ARI 0.601)、NicheCompass(平均ARI 0.568)和MENDER(平均ARI 0.565)在空间聚类准确性方面表现最佳。同时,GraphST、SpaDo和GraphST-PASTE产生的域在空间上最为连贯。
空间对齐对于准确重建组织三维结构和分析不同域或细胞的空间分布至关重要。研究评估了基于整合的方法(STAligner和SPACEL)和非基于整合的方法(PASTE和STalign)。
结果显示,PASTE和基于SPACEL的方法在MERFISH Preoptic数据集上实现了强大的对齐性能。基于SPACEL的方法表现出持续稳定的性能,无论使用哪种整合方法作为输入。相比之下,STalign在此数据集上表现不佳,这很可能源于其基于图像的方法,该方法依赖于明显的组织形状特征。
切片表征利用每个切片中已识别空间域的丰度作为表征,这是一种基于生物学且具有临床相关性的标准方法,广泛用于分层患者组和在低维空间中可视化数据。
使用三阴性乳腺癌(TNBC)数据集评估显示,聚类准确性随域数量的变化而显著变化。当使用CN或MENDER识别的域,并结合K-means聚类时,在准确性和稳定性之间实现了良好平衡。相比之下,使用PRECAST识别的域无法区分患者类型。
研究发现,当MENDER识别出五个域时,K-means产生最佳聚类结果。域丰度在不同样本类型间存在明显差异:主要由免疫细胞组成的域1在Cold样本中几乎不存在,在Mixed样本中比例适中,而在Compartmentalized样本中丰富。相反,主要由肿瘤细胞组成的域2在Cold样本中占主导地位,在Compartmentalized样本中较少见。这种域组成与这些样本类型的已知生物学特征一致。
通过对所有方法在不同任务和数据集上的性能进行详细分析,研究人员发现多切片整合和空间聚类的有效性受到数据类型的影响。上游和下游任务之间的相关性分析揭示了多切片整合与空间聚类之间、空间聚类与基于整合的空间对齐之间以及空间聚类与切片表征之间存在强关联。
这些发现强调了多切片分析的复杂性,并强调在每个步骤都需要严谨和准确,以确保后续下游应用的可靠性结果。
这项研究对12种空间多切片整合方法在一系列多切片分析任务中的表现进行了系统评估,包括多切片整合、空间聚类、空间对齐和切片表征。使用来自各种空间转录组平台的19个数据集,通过多个定量指标全面评估了每种方法的性能,揭示了它们的相对优势和局限性。
分析表明,方法性能高度依赖于特定应用、数据集大小和测序技术。此外,研究人员发现了上游和下游任务之间的强相互依赖性,强调了强大的整合和聚类对于可靠下游分析的重要性。
研究结果为研究人员根据具体目标、数据类型和数据集大小选择最合适的方法提供了实用指南。对于多切片整合,CellCharter、MENDER和STAIG在处理批次效应和保存生物信息方面表现出色;对于空间聚类,Banksy、CellCharter和STAligner表现良好;对于空间对齐,PASTE(代表非基于整合的方法)和SPACEL(代表基于整合的方法)被推荐使用;对于切片表征,推荐使用CN和MENDER识别的域来表示切片。
该研究的发现对空间转录组学领域具有重要指导意义,不仅提供了方法选择的实用指南,还揭示了当前方法存在的局限性,特别是广泛忽视域-域关系(包括物理接近度和语义相似性)的问题。这为未来开发 dedicated 模块以利用这些信息来改善空间转录组学分析管道的整体性能和可解释性指明了方向。
尽管取得了这些贡献,该研究也存在一些局限性,包括未包含最新出现的整合方法和测序技术,主要评估相似组织切片的整合能力,以及专注于垂直整合而未评估相同组织切片的水平整合方法。未来的研究将通过包含更多样化的数据集来解决这些限制,从而能够在各种背景下更详细地评估方法。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号