Nature Methods:De Novo基因组序列组装的新方法

【字体: 时间:2016年05月18日 来源:生物通

编辑推荐:

  对于de novo人类基因组序列组装而言,短读长简直意味着不可能的任务。不过,加州大学旧金山分校、BioNano Genomics和10X Genomics的研究人员近日开发出一种新的组装方法,它将short-read测序与10X的linked-read测序相结合。这项成果于近日发表在《Nature Methods》上。

  

生物通报道 对于de novo人类基因组序列组装而言,短读长简直意味着不可能的任务。不过,加州大学旧金山分校、BioNano Genomics和10X Genomics的研究人员近日开发出一种新的组装方法,它将short-read测序与10X的linked-read测序相结合。这项成果于近日发表在《Nature Methods》上。

如今,测序人类基因组已并非难事,但如果要获得高质量的基因组序列组装,人们必须克服三大挑战:1) 几乎100%相同的重复序列,它们存在于大多数高等真核基因组中;2) 二倍体的DNA;3) 缺乏能够产生准确的长读取的低成本测序平台。

去年,西奈山伊坎医学院的Matthew Pendleton去年开发出一种方法,将Illumina测序、PacBio测序和BioNano Genomics的基因组作图相结合,对HapMap样品NA12878进行了高质量的组装。不过,这种方法的缺点在于PacBio测序的成本相对较高,通量较低。

于是,加州大学旧金山分校的Pui-Yan Kwok及其同事用10X Genomics的linked-read数据取代了Pacific Biosciences的long-read序列。在一项试验性研究中,他们利用这种方法来测序和组装HapMap项目的个体基因组,看看效果如何。

这种新方法主要依靠两个平行过程。首先,利用SOAPdenovo短寡核苷酸分析软件将Illumina的序列组装成scaffold。为了让这些scaffold有序排列成更长的片段,研究人员调入10X GemCode平台所产生的序列数据,并利用fragScaff来产生新的scaffold。同时,他们利用BioNano Genomics的Irys系统来产生序列motif的物理图谱,之后结合10X scaffold来产生最终的混合组装图谱。然后,他们利用10X Long Ranger软件对混合组装的scaffold进行分相,并借助BioNano Genomics的图谱来分辨一些重复区域。

在试验性研究中,研究人员利用这种方法对人类HapMap样品NA12878进行组装和分相。最初的Illumina组装产生了超过14,000个scaffold,而N50为0.59 Mb。在混合组装后,scaffold数量降为170个,而N50大小达到33.5 Mb,相对之前有57倍的改善。

与参考基因组相比,研究人员发现他们的组装结果比2011年发表的ALL-PATHS组装更准确,与Pendleton等人的方法有95.2%相似。此外,他们还指出,95.7%的外显子存在于他们的新组装中。

尽管Kwok及其同事认为这种方法是一种改进,但也存在一些局限。例如,10X的方法依赖于高分子量DNA的制备,这对长期保存的样品而言很难做到。另外,linked-read是通过50-100 kb分子的随机k-mer扩增产生的,但这些分子不一定北扩增。因此,人们需要产生不同大小的多个测序文库,这增加了工作量。

“通过这个原理验证研究,我们证明了使用这三组互补的作图-测序数据能克服之前的限制,而普通实验室可在短时间内以合理的成本平行生成这些数据,”作者在文中写道。(生物通 薄荷)

原文检索

A hybrid approach for de novo human genome sequence assembly and phasing

Nature Methods (2016) doi:10.1038/nmeth.3865

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号