
-
生物通官微
陪你抓住生命科技
跳动的脉搏
纳米孔自适应采样工具全面性能评估:助力靶向测序与宿主DNA去除的效率优化
【字体: 大 中 小 】 时间:2025年09月18日 来源:Genome Biology 9.4
编辑推荐:
为解决纳米孔自适应采样工具在靶向富集和宿主DNA去除中性能评估不足的问题,研究人员系统比较了MinKNOW、Readfish等六种主流工具在物种内基因富集、物种间微生物富集和宿主DNA去除三大任务中的表现。结果表明基于Guppy碱基识别与minimap2比对策略的工具综合性能最优,深度学习工具SquiggleNet在特定场景下表现突出。该研究为临床诊断和病原检测中的靶向测序策略选择提供了重要依据。
纳米孔测序技术凭借其长读长、实时测序和便携性等优势,在临床诊断和基因组研究中展现出巨大潜力。然而,在实际应用中,样本中目标DNA含量有限往往成为检测灵敏度的制约因素。自适应采样(Adaptive Sampling)技术的出现为解决这一难题提供了新思路——它能够在测序过程中实时识别并剔除无关读长,从而富集目标序列。但目前市面上多种自适应采样工具的性能参差不齐,缺乏系统性的比较研究,使得研究人员在选择合适工具时面临困难。
正是在这样的背景下,Lang Yang等研究团队在《Genome Biology》上发表了针对六种主流自适应采样工具的全面性能评估研究。为了客观比较这些工具的实际效果,研究团队设计了三个具有代表性的实验任务:人类奇数染色体上COSMIC癌症基因的物种内富集、酿酒酵母(Saccharomyces cerevisiae)在模拟微生物群落中的物种间富集,以及临床样本中人类宿主DNA的去除。每个实验都使用全新的纳米孔流动槽,将512个通道平均分配给自适应采样组和对照组,确保实验条件的可比性。
研究采用了多项关键技术方法:使用SQK-LSK109连接测序试剂盒构建测序文库,在MinION设备上进行48小时连续测序;通过Guppy 6.4.6进行实时碱基识别;利用minimap2进行序列比对;针对不同工具(包括MinKNOW、Readfish、BOSS-RUNS、UNCALLED、ReadBouncer和SquiggleNet)分别设置专门的运行环境和分析流程;使用GM12878人类细胞系DNA、ZymoBIOMICS标准品等高质量样本;通过自定义脚本监控工具运行状态并自动重启异常进程。
在物种内富集任务中,研究人员重点关注了373个位于人类奇数染色体上的COSMIC基因及其侧翼序列。结果显示,基于Guppy和minimap2策略的工具(MinKNOW、Readfish和BOSS-RUNS)表现最佳,绝对富集因子(AEF)达到3.45-4.29倍,相对富集因子(REF)超过6.40。这些工具能够快速决策(约1.1-1.3秒),在6小时内即可达到1倍覆盖深度,而对照组需要21小时。UNCALLED由于需要更长的信号分析时间(约3.2秒)和较高的假阳性率,性能相对较差。ReadBouncer则因高假阴性率导致富集效果不佳。
在物种间富集任务中,研究团队从包含七种细菌的模拟微生物群落中富集仅占2%的酿酒酵母。MinKNOW、Readfish和BOSS-RUNS再次展现出优异性能,AEF达到4.23-4.86倍,REF超过12.26。这些工具对酿酒酵母读长的召回率超过0.987,精度达到0.999。ReadBouncer由于较高的假阴性率(召回率仅0.770),富集效果明显较差。值得注意的是,所有工具对酿酒酵母基因组的覆盖都相对均匀,未观察到BOSS-RUNS宣传的动态调控功能。
在宿主DNA去除任务中,研究关注的是从人类DNA背景中富集微生物序列。SquiggleNet在这一任务中表现出色,保持了最佳的通道活性,产生了最高的碱基输出量(3.76 Gb),AEF达到2.69。虽然MinKNOW和Readfish的REF更高(10.06和7.25),但由于通道活性下降较快,总输出量较低。深入分析发现,SquiggleNet不仅对训练中包含的细菌(如沙门氏菌和大肠杆菌)有良好富集效果,对未训练的细菌也表现出优秀的泛化能力,平均AEF为3.29。然而,对真菌(如白色念珠菌)的鉴别能力相对较弱,这可能是由于部分真菌基因组与人类基因组存在同源区域。
研究结论表明,不同自适应采样工具的性能存在显著差异。基于Guppy碱基识别和minimap2比对策略的工具(MinKNOW、Readfish和BOSS-RUNS)具有最广泛的适用性和最佳的综合性能,可作为大多数场景的首选方案。UNCALLED由于参考基因组大小限制(<1 Gb)和较长的决策时间,适用范围有限。ReadBouncer虽然理论上有不错的表现,但实际运行中存在内存管理问题,需要频繁重启,影响实用价值。SquiggleNet在特定任务(如人类DNA去除)中表现出色,深度学习方法在信号处理速度方面具有优势,但需要预训练模型支持。
讨论部分强调了几个关键发现:首先,目标序列在样本中的初始比例显著影响富集效果,低丰度目标更容易获得高富集倍数;其次,目标与非目标区域之间的序列相似性会严重影响分类准确性,特别是在物种内富集任务中;第三,工具的性能不仅取决于分类准确性,还受到决策速度和通道活性维持能力的影响。这些发现为自适应采样技术的进一步优化提供了重要方向,特别是在算法效率、内存管理和通用性方面的改进。
该研究的重要意义在于为纳米孔测序用户提供了工具选择的实证依据,为临床诊断中的靶向测序策略优化提供了指导。同时,研究结果也指明了未来技术发展的方向:深度学习技术在信号处理方面的优势值得进一步挖掘,特别是在开发预训练模型用于常见应用场景(如人类-微生物鉴别)方面具有巨大潜力。随着纳米孔测序技术在临床应用的不断深入,这种针对性的性能评估研究将有助于推动自适应采样技术的标准化和广泛应用。
生物通微信公众号
知名企业招聘