-
生物通官微
陪你抓住生命科技
跳动的脉搏
PacBio华丽转型,未来关注人类基因组测序应用
【字体: 大 中 小 】 时间:2020年07月24日 来源:生物通
编辑推荐:
2018年11月,Illumina拟斥资12亿美元收购PacBio的消息引起业界广泛关注。不过,在漫长的监管审批后,两家公司在今年年初宣布终止合并协议。自此,PacBio致力于重塑自我。放眼未来,他们将目光投向了人类基因组测序市场。
2018年11月,Illumina拟斥资12亿美元收购PacBio的消息引起业界广泛关注。不过,在漫长的监管审批后,两家公司在今年年初宣布终止合并协议。自此,PacBio致力于重塑自我。放眼未来,他们将目光投向了人类基因组测序市场。
PacBio测序系统在2019年有了一次全面升级。大约一年前,PacBio推出了Sequel II平台。战略营销高级总监Luke Hickey在接受《Bio-IT World》采访时表示,PacBio在2019年6月至12月期间向客户交付了104台Sequel II测序系统,强调了老客户和新客户的健康组合。
Sequel II系统采用了一种新的读取形式——HiFi reads。相关论文于2019年8月发表在《Nature Biotechnology》杂志上,PacBio的首席科学家Aaron Wenger是第一作者。研究团队采用了CCS(circular consensus sequencing)测序模式,以提高单分子实时(SMRT)测序的准确性,并生成了平均读长为13.5 kb的高保真HiFi reads。
Wenger解释说:“我们通过对DNA分子的多次观察而大大提高了准确率。举个例子,第一次检测时准确率达到了87%。现在回过头来,从另一个方向测,又获得了87%的准确率。现在你有了两条reads,它们的准确率均为87%,但是两次的错误是不同的。通过多次观察同一DNA分子,你可以在软件中生成一致序列。如果5次测量,准确率将达到99%;如果8次测量,准确率将会达到99.9%。”
这些高度准确的reads将开启新的应用。Wenger及其他作者在论文中写道:“我们的CCS方法达到了甚至超越了短读长测序检测小变异和结构变异的能力。仅仅使用CCS reads的de novo基因组组装产生了连续而准确的基因组,contig N50超过15 Mb,一致性达到99.997%。”
如今,Sequel II平台和HiFi reads已经出现在一些文献中。Wenger表示,目前已经显现出一些有趣的趋势,“有些是我们预料到的,而有些是没预料到的”。
Wenger表示,一般说来,短而准确的reads对检出小的变异(如SNP)至关重要,而de novo组装则需要较长的reads,即使准确性较低。不过,HiFi reads似乎处于中间地带。它们准确且更长:大约15 -20 kb,准确率超过99%。
问题在于,这些HiFi reads的表现如何?“实际上,对于人类基因组而言,这些高度准确且比较长的序列远胜于100 kb甚至150 kb的序列,”Wenger说。“基因组中的重复序列不会是100%相同的。如果基因组中两段序列的相似性是98%,但你的测序准确性是99%,那么你就可以将它们区分开。”
全新应用
据Wenger介绍,Sequel II平台提供的功能足以完全组装人类基因组,从端粒到端粒。目前有一个小组正对此进行研究。Telomere to Telomere(T2T)联盟的目标就是从头到尾对人类染色体进行测序,包括棘手的着丝粒,以填补基因组中的数百个缺口,如片段重复、核糖体rRNA基因簇等。
研究小组在网站上写道:“我们的目标是完成这些剩余区域,并生成第一个完整组装的人类基因组。这项工作的最终目标是推动技术发展,从而显著提高从端粒到端粒的二倍体人类基因组完整组装的通量。”
项目负责人之一Adam Phillippy在2019年AGBT大会上展示了完整的人类X染色体的序列。研究人员利用Oxford Nanopore、PacBio、10x Genomics、Illumina和Bionano Genomics等多种技术的组合对X染色体进行了组装。Wenger表示,从那时起,HiFi就被更多地用于着丝粒的测序。同时,X染色体的测序结果已于不久前发表在《Nature》杂志上。
理想读长
Sequel II和HiFi reads标志着PacBio技术重心发生了转移。Wenger表示,20 kb的读长对于人类基因组中想做的任何事情都足够了,因此,增加读长并不是优先考虑的事情。“还有一些着丝粒需要完成,你可能需要30 kb。不过,我有些怀疑。我认为20 kb就足够了,算法的不断改进将完成剩下的工作,”他说。
Wenger还指出,20 kb是理想的读长。“我们发现,20 kb是一个舒适的范围,这样人们能够很好地采集样本,一致地处理样本并生成良好的文库。当你尝试增加读长时,对样本采集的限制会越来越多,建库失败的可能性也越大。这不是测序技术的问题,而是上游DNA处理的问题。”
Hickey也同意他的观点。“对于我们来说,下一步未必是增加读长,因为我们这已经足够了,但可以降低成本。这就是我们2020年的路线图。我们希望在一天之内,通过一个SMRT Cell获得一个人类基因组。”他希望将耗材成本降至1,000美元。
Hickey看好该平台未来在临床中的实用性。NIH资助的研究着眼于最终的临床应用,而HudsonAlpha的一个研究小组也在试着用Sequel II进行诊断。“在接下来的几年中,我们将从事人类遗传学基础研究,然后再进行转化、临床等研究领域的探索,以证明其实用性,”他说。