-
生物通官微
陪你抓住生命科技
跳动的脉搏
Nature子刊:新技术攻克单分子测序大问题
【字体: 大 中 小 】 时间:2012年07月03日 来源:生物通
编辑推荐:
来自冷泉港实验室(CSHL)的一位定量生物学家及同事们开发出了一种混合错误校正新方法攻克了单分子测序的重大问题,可将长读(long reads)的准确度提高到99.9%。这一研究成果发布在7月1日的《自然生物技术》(Nature Biotechnology)杂志上。
生物通报道 来自冷泉港实验室(CSHL)的一位定量生物学家及同事们开发出了一种融合错误校正新方法攻克了单分子测序的重大问题,可将长读取(long reads)的准确度提高到99.9%。这一研究成果发布在7月1日的《自然生物技术》(Nature Biotechnology)杂志上。
领导这一研究的是冷泉港实验室助理教授Michael Schatz以及马里兰大学国家生物防卫分析和反制中心的Adam Phillippy 和 Sergey Koren。
在这篇文章中,研究小组开发了一个软件包可校正单分子测序新技术中的一个严重的问题:它生成的每五个或六个DNA“碱基”就有一个错误。这一新技术的优点是它生成了更长的基因组reads,相比于当前使用的其他技术要长100倍,因此可以提供相比当前第二代技术获得的更为完整的基因组结构图谱。然而高错误率却是是这一新技术主要优点的另一面。
利用数学算法,Schatz及研究团队保留了第三代技术的巨大优势,消除了它的主要缺点。他们将错误率从大约15%或以上减少到不到千分之一。这一数学计算以开放源代码发布到万维网上,大大提高了第三代测序在整个生物医学研究界的实用价值。
研究小组通过将他们的算法应用到从在难度规模一端的微小噬菌体病毒到另一端的巨大的更为复杂的鹦鹉基因组的测序任务中,证实了单分子测序潜在应用的宽度。鹦鹉基因组的大小超过人类基因组的三分之一。“鹦鹉基因组远远优于从前测序的所有鸟类基因组,”Schatz说。
了解它更好的原因是为了正确评估第三代测序的优势。主要的优势与每个read(例如测序仪生成的基因组片段read)的平均长度有关。个体序列被组装成contigs(重叠群),以拼图的方式组装片段。在当前使用的第二代技术中,contigs非常小,且有大量冗余。每个片段的“共有序列”( consensus),代表了许多分层reads的结果,往往非常准确。而小拼图片段(puzzle pieces)则阻碍了某些基因部分,如包含长重复序列部分的准确装配。
兼备两代的优势
用单分子测序,组装的contigs更长,提供了对相对较大基因组片段,包括那些包含冗长重复的片段的更好的图谱。这是Schatz和研究团队希望保留的,同时他们提高了无错误率。通过有效地利用了第二代和第三代技术的最佳方面做到了这一点。
“我们称我们的做法为‘融合错误校正’(hybrid error correction),”Schatz解释说。
研究小组的主要观点是利用他们实验中所利用的第三代测序仪Pacific Biosciences RS sequencer提供的长读数据,混合到另一台第二代测序仪获得的高度精确短读中。通过一种称为Celera Assembler的开放源基因组组装程序运行两种数据类型生成的最终的序列装配证实为99.9%的无错率,其中contigs的中位数大小是第二代“短读”测序仪的两倍。在随后重复的混合方法中Contig大小被预计随单分子长读测序改善略微增多。
高质量的基因组组装对于基因组注释和比较基因组分析尤为重要。许多微生物基因组分析取决于完成的基因组,但利用旧技术它们的成本高昂。高质量分析更高等生物的基因组依赖连续序列捕获拼读基因的长DNA片段。近年来发现基因组中自发性发生的结构改变,即拷贝数变异表明了能够获得疾病受累个体干净准确的全基因组图谱的重要性。
利用融合错误校正,Schatz和他的同事们证实与长度相关的高错误率不会是基因组组装的障碍。高错误的长读可有效组装与互补的短读结合生成从前不可能获得的组装。
(生物通:何嫱)
生物通推荐原文摘要:
Hybrid error correction and de novo assembly of single-molecule sequencing reads
Single-molecule sequencing instruments can generate multikilobase sequences with the potential to greatly improve genome and transcriptome assembly. However, the error rates of single-molecule reads are high, which has limited their use thus far to resequencing bacteria. To address this limitation, we introduce a correction algorithm and assembly strategy that uses short, high-fidelity sequences to correct the error in single-molecule sequences. We demonstrate the utility of this approach on reads generated by a PacBio RS instrument from phage, prokaryotic and eukaryotic whole genomes, including the previously unsequenced genome of the parrot Melopsittacus undulatus, as well as for RNA-Seq reads of the corn (Zea mays) transcriptome. Our long-read correction achieves >99.9% base-call accuracy, leading to substantially better assemblies than current sequencing strategies: in the best example, the median contig size was quintupled relative to high-coverage, second-generation assemblies. Greater gains are predicted if read lengths continue to increase, including the prospect of single-contig bacterial chromosome assembly.