从短读长到长读长:基于Nanopore宏条形码技术提升原生生物多样性分析的深度与精度
《Metabarcoding & Metagenomics》:?From short to long reads: enhanced protist diversity profiling via Nanopore metabarcoding
【字体:
大
中
小
】
时间:2025年10月22日
来源:Metabarcoding & Metagenomics
编辑推荐:
本研究针对长读长Nanopore测序技术在原生生物多样性分析中缺乏标准化分析流程的问题,开发了BaNaNA(Barcoding Nanopore Neat Annotator)生物信息学流程,通过模拟群落和自然环境样本(淡水和海洋)验证了其生成高质量OTUs的能力。研究表明,Nanopore长读长测序不仅能提供与Illumina短读长测序相当的群落多样性结果,还具有更高的分类分辨率、更丰富的系统发育信息及更低的假阳性率,可作为短读长方法的可靠替代或补充方案,为原生生物生态学和进化研究提供了新的技术路径。
在微生物真核生物(即原生生物)研究领域,环境DNA宏条形码技术彻底改变了对这些微小生物多样性的认知方式。然而,传统的短读长测序方法(如Illumina)虽然能大规模评估时空维度上的多样性格局,但其读长限制导致分类分辨率有限,且易受引物偏好和扩增偏差的影响。近年来,长读长测序技术(如牛津纳米孔技术ONT)的出现为微生物多样性研究提供了新的可能,它能够获得更长的扩增子序列,从而提供更丰富的系统发育信息。尽管如此,纳米孔测序较高的错误率以及缺乏专门针对原生生物长读长数据的标准化分析流程,限制了其在该领域的广泛应用。
为解决这些问题,华沙大学的研究团队开发了名为BaNaNA(Barcoding Nanopore Neat Annotator)的分析流程,旨在从纳米孔长读长数据中生成高质量的操作分类单元(OTUs)和丰度估计。为验证该流程的有效性,研究人员同时采用了模拟群落和自然环境样本(包括淡水和海洋生态系统),系统比较了纳米孔长读长18S rDNA测序与Illumina短读长V4-18S rDNA测序在揭示原生生物多样性及生态模式方面的性能。
研究团队采集了波兰大马祖里湖区五个湖泊的淡水样本以及地中海海洋环境样本(包括表层、深叶绿素最大值层和深层水体)。同时,构建了一个包含7个物种的模拟群落,覆盖了哈普托藻、眼虫、绿藻、纤毛虫、甲藻和隐藻等重要原生生物类群。DNA提取后,分别使用Illumina平台针对V4区域(约380 bp)和纳米孔平台针对全长18S rDNA至28S rDNA的D2区域(约3200 bp)进行扩增子测序。
Illumina数据分析采用QIIME2环境中的DADA2进行去噪,生成扩增子序列变异(ASVs);纳米孔数据则通过BaNaNA流程进行处理,包括基于Dorado的碱基识别和解复用、Filtlong质量和长度过滤、Barrnap提取rDNA片段、自定义脚本验证rDNA结构、VSEARCH聚类(阈值根据平均读长质量动态调整)、MAFFT多序列比对和一致性序列构建、Minimap2和Racon抛光,最后进行嵌合体检测和去重复,生成OTUs。
主要技术方法包括:纳米孔长读长测序(使用PCR Barcoding Expansion和Ligation Sequencing Kit在MinION Mk1B设备上完成)、Illumina短读长测序(MiSeq平台,2×250 bp)、BaNaNA生物信息学流程(基于Snakemake,集成多种工具进行读长处理和OTU生成)、PR2数据库(v5.0.0)进行物种注释、以及VSEARCH和MAFFT等用于序列比对和聚类。
Illumina测序产生622,100条原始读长,最终获得268个ASVs(平均长度379 bp);纳米孔测序产生594,076条原始读长,经BaNaNA处理获得147个OTUs(平均长度1843 bp)。结果表明,Illumina V4-18S rDNA ASVs在物种组成上与原模拟群落结构存在较大偏差,如眼虫几乎未被检测到,且出现了大量非目标类群(假阳性)。而纳米孔全长18S rDNA OTUs更准确地反映了预期的群落结构,哈普托藻和眼虫为最优势类群。尽管两种技术均未能准确鉴定所有7个物种到种水平,但纳米孔数据在物种级分类准确性上显著高于Illumina,且假阳性更少。
在淡水样本中,Illumina获得1,668个ASVs,纳米孔获得1,068个OTUs;海洋样本中,Illumina获得2,716个ASVs,纳米孔获得1,230个OTUs。Illumina在各类分类水平上检测到的类群数均高于纳米孔,尤其在物种级别更为明显(平均每样本166.1种 vs 92.6种)。然而,两种技术揭示的总体群落结构高度相似:淡水样本中以甲藻和帕金藻为最优势类群,海洋样本中以甲藻和放射虫为主,且深水样本中光合类群缺失。Bray-Curtis差异度和NMDS排序分析显示,两种技术均能清晰区分淡水与海洋生态系统,以及水体不同深度之间的群落差异。
从淡水和海洋样本中,分别鉴定出513和234个新颖OTUs(与PR2数据库中最相近参考序列的相似性低于97%)。这些OTUs分属于6个超类群和15个门类,其中淡水中的新颖类群以帕金藻和甲藻为主,海洋中以 syndiniales 甲藻和放射虫为主。基于全长18S rDNA序列构建的系统发育树(使用IQ-TREE,最佳模型为TIM2+F+R10)不仅验证了这些新颖OTUs的分类地位,还揭示了多个新的进化枝,表明纳米孔长读长数据在发现新分类单元和提升系统发育分辨率方面具有巨大潜力。
本研究通过开发并验证BaNaNA分析流程,证明了纳米孔长读长测序在原生生物宏条形码研究中的可靠性和优势。与Illumina短读长相比,纳米孔长读长数据不仅能提供相当的多样性评估结果,还具有更高的分类分辨率、更丰富的系统发育信息以及更低的假阳性率,使其成为短读长方法的强大补充甚至替代方案。此外,从纳米孔全长OTUs中提取的V4标签与Illumina ASVs高度可比,为整合现有大量短读长数据与新兴长读长数据提供了可行途径。
然而,研究也指出参考数据库的完整性仍是准确物种注释的关键限制因素,特别是在淡水环境中,由于参考序列的缺乏,许多OTUs无法被准确注释到种水平。因此,未来需要进一步扩充原生生物参考数据库,以充分发挥长读长测序的潜力。
综上所述,纳米孔长读长宏条形码技术结合BaNaNA分析流程,为原生生物多样性研究提供了新的技术路径,不仅提升了物种鉴定的准确性,还为生态学和进化研究提供了更丰富的数据资源。该研究成果发表于《Metabarcoding》,对推动微生物真核生物研究领域的发展具有重要意义。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号