短读长测序数据构建图泛基因组在种群与保护基因组学中的应用与评估

《Molecular Ecology Resources》:Short-Read Pangenomes and Their Potential Utility in Population and Conservation Genomics

【字体: 时间:2025年10月20日 来源:Molecular Ecology Resources 5.5

编辑推荐:

  本文提出了一种利用低覆盖度短读长测序数据构建图泛基因组的新流程,并与长读长图泛基因组进行基准测试。研究表明,该经济型短读长泛基因组能有效捕获长读长方法鉴定的大部分变异(SNP和SV),并在种群结构分析和亚种区分中展现出相似的生物学信号,为保护基因组学提供了可行的替代方案。

  
1 引言
泛基因组(pangenome)指的是一个种群或物种中存在的全部DNA序列集合,包含了整个基因库。这一概念最初源于微生物学领域,现已扩展到种群和保护基因组学研究。与主要由基因组成的原核生物泛基因组不同,真核生物的泛基因组主要由基因间区和内含子等非编码区域构成。真核生物泛基因组包含“核心”基因组和“辅助”基因组两部分。核心基因组指存在于大多数个体中的序列,而辅助基因组则代表至少在一个个体中未发现的序列。
使用泛基因组替代传统的线性参考基因组具有诸多优势,包括能更全面地评估基因组多样性,如单核苷酸多态性(SNP)和长片段结构变异(SV,如插入/缺失),并能区分它们属于核心还是辅助泛基因组。这种更全面的分类可以提供重要的生物学见解,例如识别谱系特异性的核心遗传变异,或与局部适应相关的辅助变异。因此,泛基因组的核心和辅助部分对进化生物学家和保护生物学家都具有重要价值。
目前,泛基因组的金标准是基于多个个体的深度长读长测序数据构建的图结构。与代表连续核苷酸序列的单一样本传统线性基因组组装不同,图泛基因组结构将不同的序列片段(即使具有相同的基因组坐标)作为多个节点并通过边连接起来。图泛基因组能更有效地展示在线性泛基因组中难以呈现的结构变异,但其计算成本更高,且相关的生物信息学工具仍相对匮乏。构建图泛基因组的方法包括VG工具、PGGB和Minigraph等。这些方法在处理长读长序列时效果最佳,但由于成本高昂,长读长数据对于大多数受保护的非模式物种而言尚未普及。然而,基于短读长的重测序数据集在保护基因组学文献中正变得越来越常见,并且原则上大多数是公开可用的,有可能被开发成可用的泛基因组。
理论上,需要识别并将基因组的辅助成分添加到核心成分中以构建一个最小的泛基因组。将短读长序列比对到线性参考基因组上,可以根据每个读段的比对结果来识别泛基因组的核心和辅助成分。未能比对到线性参考基因组(通常来源于单个二倍体个体)上的读段被称为未比对上读段。这些未比对上读段可以组装成自己的重叠群,并作为泛基因组的辅助成分附加到线性参考基因组之后,从而产生一个“线性”泛基因组。然而,使用传统的线性表示法不可能在同一时间、同一位置准确描绘所有泛基因组变异,因此开发了图形组装方法用于泛基因组的构建和可视化。在图泛基因组中,所有变异(包括复杂结构,如嵌套在插入内的SNP,或同一染色体区域的各种插入/缺失)都可以被简洁地表示。
图泛基因组是最理想的表示形式,但传统观点认为需要多个长读长组装才能获得最佳结果。这类组装生成成本非常高昂;因此,有必要找到能够完全或近乎完全记录泛基因组变异的经济高效的方法。
本研究设计并测试了从低覆盖度短读长重测序数据构建泛基因组的工作流程,并将这些泛基因组与长读长图泛基因组组装进行比较,以评估各种工作流程的效率。研究发现,通过结合“宏基因组”和“迭代比对然后组装”的方法,短读长图泛基因组可以捕获长读长图泛基因组中检测到的大部分变异。结论是,该工作流程提供了一种可行的替代方案,主要出于经济原因,可能对保护基因组学家、进化生物学家和分子系统学家具有吸引力。同时,也讨论了基于短读长测序数据构建泛基因组的潜在局限性。
2 材料与方法
本研究以家燕(Hirundo rustica)为模型,利用其丰富的基因组资源:一个染色体水平的线性参考基因组、一个长读长衍生的泛基因组以及不同亚种的Illumina重测序数据。
研究生成了五种不同的组装:(1) 线性参考基因组,(2) 线性泛基因组,(3) VG图泛基因组(使用VG工具基于短读长组装的图泛基因组),(4) MC图泛基因组(使用Minigraph-Cactus基于短读长组装的图泛基因组),以及(5) 长读长图泛基因组。这些组装可分为两大类:“线性组装”包括线性参考基因组和线性泛基因组;“图组装”包括MC图泛基因组、VG图泛基因组和长读长图泛基因组。
新颖的工作流程基于已建立的方法和广泛使用的泛基因组学软件包。首先,利用五个家燕个体的公开长读长数据重建了定相的线性基因组组装(即十个单倍型基因组)。然后,使用这十个线性基因组组装,按照Secomandi等人的方法(但使用更新的软件版本以利于直接比较)重建了家燕长读长图泛基因组。接着,使用NGSNGS从十个单倍型中的每一个模拟了5×覆盖度的短读长(2×150 bp)样本;重复模拟四次以达到总深度约200×。工作流程随后以“宏基因组”方式汇集所有模拟读段,然后进行从头迭代比对然后组装步骤。基于线性参考基因组,使用Bowtie2、MaSuRCA、MEGAHIT和Canu从比对上的和未比对上的读段分别生成超级重叠群。迭代生成超级重叠群两次;在第二次迭代后,将大的未比对上的超级重叠群(>10,000 bp,即辅助超级重叠群)附加到原始线性参考基因组后以生成“线性泛基因组”。使用minimap2确认所得的未比对上的超级重叠群仍然无法比对,而比对上的超级重叠群能比对到线性参考基因组,以过滤掉潜在的技术假象(如嵌合重叠群)。所有最终的超级重叠群被汇集到“超级重叠群集合”中。
对于第一个短读长图泛基因组(“VG图泛基因组”),使用VG工具并以线性泛基因组为骨架进行构建。选择基于骨架的泛基因组构建方法而非无骨架方法,是因为前者更容易比对短读长。为了将SNP和SV纳入VG图泛基因组,事先通过将模拟短读长比对到线性泛基因组后,使用GATK4 Haplotypecaller和Delly2调用变异。
对于第二个短读长图泛基因组(“MC图泛基因组”),通过将每个模拟样本的初始短读长映射到超级重叠群集合并保留满足截断阈值的重叠群,从集合中检索出对应的超级重叠群。使用Minigraph-Cactus流程(以线性泛基因组为骨架)和Cactus进行构建。对于泛基因组处理,随后使用VG工具,遵循Secomandi等人的流程和开发者指南。
3 结果
3.1 泛基因组比较
生成的五种组装大小相似,平均约为1,148,891,192 bp,方差较小,但结构复杂性呈增加趋势。正如预期,所有泛基因组都比线性染色体参考基因组大。不同组装之间的比对率和比对质量具有可比性。长读长图泛基因组的比对率最高,而VG图泛基因组在图组装中具有最高的比对质量值。
检测到的SNP数量在两个线性组装中几乎相同,而在三个图组装中经过滤前也非常相似(差异在±2%以内),但在扩充后,线性组装作为一个组别检测到的SNP数量比图组装多约40%–50%。检测到的SV数量在两个线性组装中经过滤前再次几乎相同,在图组装中也非常相似(差异在±6%以内),但VG工具从三个图组装中检测到的SV数量超过100,000个,远多于线性组装组别。变异过滤和泛基因组扩充显著影响了最终的变异数量。
当使用亚种水平数据集调用SV时,总体模式相似,尽管在图组装中检测到的变异较少(约为线性组装的~50%)。因此,图组装在亚种内检测到更多SV,但在亚种间检测到的SV少于线性组装。
3.2 变异基准测试
在线性泛基因组与线性参考基因组的变异基准测试中,线性泛基因组与线性参考基因组几乎相同。无论是过滤前、过滤后还是扩充后的变异,SNP和SV的F1分数均>0.99。某个组装特有的变异数量非常少,约占Delly2检测到的SNP的~0.1%和SV的~0.5%。
从三个图组装调用的变异集彼此之间的相似度远高于它们与线性组装的相似度。虽然过滤前SNP的F1分数在线性和图组装之间超过0.9,但经过过滤后分数下降,扩充后(经过滤)不超过0.7。SV的F1分数受影响更大,扩充后变异的分数范围在0.074–0.227之间。在以线性参考基因组为基准的图组装基准测试结果中,特有SNP和特有SV的数量高于长读长图泛基因组。当以长读长图泛基因组为基准时,SV的F1分数在经过过滤或扩充后有所提高,但代价是VG和MC图泛基因组中保留的SV数量减少。这表明过滤和扩充步骤增强了与长读长图泛基因组的一致性。
当以长读长图泛基因组为基准时,基于短读长组装的VG图泛基因组和MC图泛基因组拥有相似的SNP和Delly2调用SV的变异集。MC图泛基因组的平均SNP F1分数略高于VG图泛基因组,但扩充后SNP除外。VG图泛基因组和MC图泛基因组的基于线性比对的SV集(由Delly2调用)也与长读长图泛基因组的相似,并且同样,MC图泛基因组的平均SV F1分数在扩充后SV之外均高于VG图泛基因组。然而,对于由VG工具调用的基于图比对的SV集,MC图泛基因组在过滤前的平均SV F1分数(0.098)远低于VG图泛基因组(0.539)。经过过滤或扩充后,这种关系发生了逆转。有趣的是,过滤前的SNP在线性参考基因组和长读长图泛基因组之间显示出高度相似性。
当比较两个短读长图泛基因组(即VG图泛基因组和MC图泛基因组)时,基于图比对的SV集的平均F1分数较低。相比之下,SNP集和基于线性比对的SV集的平均分数相似。
3.3 基于群体遗传学分析的验证
在群体遗传学框架下,发现基于SNP估计的核苷酸多样性和FROH在五种不同的参考组装中是一致的。核苷酸多样性仅变化±1%,从MC图泛基因组的0.00540到线性参考基因组、线性泛基因组和VG图泛基因组的0.00546。FROH的估计值也基本一致,但变异性稍大(±15%),从线性泛基因组的0.03881到长读长图泛基因组的0.04554。与SNP相关的位点频谱在五种参考组装中几乎相同,种群聚类模式也是如此。
基于SV的位点频谱总体结构在线性组装和图组装之间相似。也就是说,线性组装包含更多高频等位基因,而图组装包含更多低频等位基因。这意味着从图组装中识别出的SV在个体间共享的可能性低于从线性组装中识别出的SV。使用种群水平数据集的SV主成分分析图未显示出基于地理的清晰模式。然而,使用亚种水平数据集的SV分析在主成分分析中清晰地分组和区分了分类群。
不同组装和变异类型的配对FST值排序在种群水平和亚种水平数据集中基本一致。对于种群水平比较,图组装中基于SV的配对FST值比线性组装中的值翻倍,与基于SNP的配对FST值接近。
关于候选选择位点和FST异常值,使用种群水平数据集时未发现候选SNP位点,但线性参考基因组的FST异常值SNP数量最多(=4),其次是VG泛基因组(2个异常值SNP)和长读长图泛基因组(1个异常值SNP)。长读长图泛基因组上唯一的异常值SNP与线性参考基因组中发现的那个相同。同样,在SV中也未检测到候选位点。在线性参考基因组和线性泛基因组中鉴定出一个共同的FST异常值SV。
当使用亚种水平数据集时,从五个参考组装中均未发现FST异常值,但从线性参考基因组和线性泛基因组中发现了四个共同的候选位点。
4 讨论
研究结果强调了短读长泛基因组的几个重要方面。首先,在比较比对指标时,分析表明短读长泛基因组的性能可与线性参考基因组和长读长图泛基因组相媲美。其次,在变异基准测试中,发现短读长泛基因组要么与线性参考基因组(线性泛基因组)非常相似,要么与长读长图泛基因组(短读长图泛基因组)非常相似。第三,在群体遗传学分析中,所有组装(无论是基于短读长还是长读长数据)都通过主成分分析和基因组变异指标(如核苷酸多样性和位点频谱)识别出惊人相似的种群结构。这些发现表明:(1)短读长泛基因组可以捕获线性参考基因组或长读长图泛基因组中代表的大部分遗传变异;(2)在群体遗传学分析中,短读长泛基因组可以作为传统线性参考基因组或长读长图泛基因组的合理且经济的替代品。
关于组装结构,泛基因组应比线性参考基因组组装更大(例如,更长),因为没有一个线性基因组包含基因库中的所有插入或缺失。观察到的结构更复杂的泛基因组更长且具有改进的比对指标,符合这一预期。这可能是因为泛基因组 a) 包含更多种类的重叠群,b) 可能与给定读段比线性参考基因组更匹配。结合来看,这些因素表明短读长在泛基因组中可能比在线性参考基因组中比对更有效。
线性组装与图组装之间检测到的SNP(以及Delly2调用的SV)数量的差异可能受短读长比对效率的影响。在图组装中,同一基因组位置可以由并行排列的多个重叠群代表不同的节点。因此,来自相同基因组坐标的分化序列应比对到各自的重叠群上。这导致同一重叠群内的读段更少,从而进一步降低了检测群体间“变异”的可能性。简而言之,每个重叠群的比对读段越少,导致的变异越少。相反,线性组装每个重叠群(重叠群数量更少)的比对读段数量更多,更有可能将分化的读段收集到同一重叠群,导致出现更多“群体特异性”变异。换句话说,在图组装中,某些位点可能只有一个读段比对,而在线性组装中,相同的位点可能有多个读段比对。这可能导致图组装中的SNP(和异常值)更少。
图组装更复杂的比对结构可能导致比线性组装保留更多的SV。在图组装中检测到的额外SV并未导致种群水平数据集的位点频谱和主成分分析出现显著差异。然而,在亚种水平上,SV在主成分分析中区分了不同的亚种,这意味着SV在检测系统基因组变异方面更有效。另一方面,在线性组装中观察到了SV异常值候选位点。这是出乎意料的;原本预计更复杂的图泛基因组在基于SV的分析中会优于简单的线性泛基因组。由于使用了严重依赖比对结构的基于线性比对的SV调用器检测到更多SV,推测具有谱系特异性等位基因的变异由于与图组装中检测到较少SNP相同的原因而未被捕获。需要进一步研究以了解SV在何种条件下对群体水平分析最有用。
给定组装的结构在线性组装与图组装比较中显示了变异检测的关键作用,表现为SNP和SV的F1分数都非常低。这表明两种基因组结构之间的一致性较差,但这在比较简单的线性组装与包含核心和辅助元件的更复杂的图组装时似乎是预期的。简单地将辅助超级重叠群附加到线性基因组组装以产生线性泛基因组,并未显著影响SNP和SV的检测。
基于研究,为未来的泛基因组研究者提供一些考量。首先,线性泛基因组似乎是更关注SNP衍生见解的短读长研究的最佳选择。线性泛基因组的一个重要方面是,如果相对于参考组装的比对率低于预期,可能表明现有参考中未捕获某些序列。其次,基于短读长数据构建的图泛基因组非常适合关注群体水平结构变异的研究,例如根据SV推断种群结构。MC图泛基因组比VG图泛基因组更有效地捕获了过滤前的变异,但MC图泛基因组在泛基因组构建和变异调用步骤中需要更高的内存使用量,这可能限制计算资源有限的用户的使用。VG图泛基因组方法每步所需内存较少,但需要在图泛基因组生产之前进行额外耗时的变异调用步骤。最后,注意到已知富含重复序列的生物更适合进行长读长测序和相关的长读长泛基因组,因为短读长数据可能难以准确分析重复区域。在所有情况下,在泛基因组构建之前彻底清除污染或低质量读段至关重要。
过滤步骤极大地影响了变异的可靠性。建议对泛基因组进行扩充,但过滤参数应根据焦点物种特征和研究目标仔细设计。扩充后采用不太保守的过滤可能导致比本研究经过滤的“扩充后”变异更多的变异数量。
研究存在一些局限性。首先,工作流程中的某些步骤是内存密集型和耗时的。其次,尽管使用相同的数据和程序,本研究构建的长读长图泛基因组与Secomandi等人构建的并不完全一致,推测是由于使用了包含重大更新的更近期软件版本。同样,在线性和图组装的比较中,无法确定哪些变异是正确的。由于组装的不同比对和结构,从同一组重测序样本中检测到不同的个体变异在理论上是可能的。最后,用于构建和测试泛基因组的原始数据集并非对家燕的全范围调查。可以理解,随着采样范围的扩大,任何泛基因组的辅助部分都会增加。换句话说,更广泛的地理采样应始终导致辅助序列(包括局部适应或基因渗入变异)相对于核心泛基因组的比例更高。
尽管存在这些局限性,研究证明了无论使用来自短读长泛基因组的经验性变异、线性参考基因组还是长读长图泛基因组,种群或亚种水平的见解都保持显著一致。这些发现意味着短读长泛基因组不仅是可行的,而且在检测真实生物信号方面是稳健的。它们也表明基于线性参考基因组的研究将继续为种群基因组学提供有价值的见解。虽然长读长图泛基因组是最理想的,但对于大多数研究非模式生物的实验室来说,经济上不可行。相比之下,短读长泛基因组在许多方面提供了高度可比的选择,并且对于进化和保护生物学家关键的一系列种群分析足够可靠。短读长图泛基因组的基本原理源于植物泛基因组学研究,并且从线性结构到图结构的转换已经应用于广泛的分类群。因此,预计本流程不仅适用于鸟类,也适用于具有更大、更复杂基因组的物种,但这当然需要在极端情况下进行额外测试。希望本研究的结果能为进化、系统学和保护基因组学的研究人员,特别是那些研究受威胁和濒危物种的研究人员,提供一个有价值的跳板。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号