-
生物通官微
陪你抓住生命科技
跳动的脉搏
中国学者Nature子刊:快速准确识别SNP的方法
【字体: 大 中 小 】 时间:2012年12月14日 来源:生物通
编辑推荐:
来自香港大学,深圳华大基因等处的研究人员发表了题为“针对新一代测序数据的一个快速准确识别SNP的方法”的研究论文,介绍了一种快速精确的单核苷酸多态性检测新方法,尤其适合用于测序深度比较低的情况。相关成果公布在Nature Communications杂志上。
生物通报道:来自香港大学,深圳华大基因等处的研究人员发表了题为“针对新一代测序数据的一个快速准确识别SNP的方法”的研究论文,介绍了一种快速精确的单核苷酸多态性检测新方法,尤其适合用于测序深度比较低的情况。相关成果公布在Nature Communications杂志上。
文章的通讯作者是香港大学Junwen Wang教授,其主要研究领域为生物信息学,尤其是新一代测序的数据分析,以及基因调控网络,和蛋白与DNA相互作用方面的数据解析等,他曾荣获不少奖项,比如the Research Grants Council of Hong Kong,目前其实验室成员为6名博士,1名博士后,以及几位研究助理,他也欢迎有志之士加入其实验室。
新一代测序技术为多个研究领域带来了新的春天,但也留下了浩瀚庞大的数据,有待解析,其中一个主要方面就是SNP分析。尽管绝大多数的人类遗传信息在所有人中都相同,但是研究人员通常更感兴趣的是研究个体之间微小的遗传差异。这种差异包括单碱基变异,以及被称为结构变异的各种较大片段DNA序列变异。结构变异包括DNA片段的插入、缺失、倒位和易位,结构变异的DNA片段范围可从几个碱基对到数百万个碱基对,可能对基因产生重要影响,并导致人类疾病的发生。
全基因组SNP分析是解析全基因组范围内遗传变异与性状关系的核心技术手段,目前已成为生命科学领域大规模应用基因组信息进行重要性状遗传解析的研发热点。目前已有的相关技术大多依赖于已知基因组信息和芯片技术,但是如果要得到令人满意的结果,这些方法大部分还是需要昂贵的深度测序,以获得准确的数据。
在这篇文章中,研究人员研发出了一种快速精确的,单核苷酸多态性检测程序,这种程序基于二项分布算法(binomial distribution-based algorithm),以及一种突变概率。为了验证这种方法的可靠性,研究人员分析了来自癌症基因组图谱项目中,正常和癌症样品的新一代测序数据,并且也分析了来自千人基因组项目中的一些汇总数据。
同时研究人员将这一方法与其他几种SNP calling最先进的方法进行了比较,对比了这些方面的优点和缺点,结果证明这一新方法能在四小时内,于标准台式电脑上完成10-fold人类基因组新一代测序数据(30G)的SNP calling,是一种快速精确的单核苷酸多态性的检测方法,尤其适合用于测序深度比较低的情况。
除此之外,近期来自国内海洋大学,以及德州大学奥斯汀分校的研究人员也公布了一种高通量低成本的全基因组SNP筛查与分型新技术。这种技术称为2b-RAD,2b-RAD无需预知基因组信息,文库构建快捷,标签密度易于调节,成本低廉,将有助于高通量SNP分型技术大规模地实际应用于非模式生物特别是海洋生物的基因组学研究。
从2b-RAD这一技术命名上就可以看出其采用的是限制性酶切位点相关DNA标记(Restriction site Associated DNA,RAD),这种标记测序方法是一种简化基因组测序技术,首先利用限制性核酸内切酶识别基因组相关位点并进行酶切反应,然后对酶切获得的Tag序列进行高通量测序。这种方法能够显著降低基因组的复杂度,快速、经济地鉴定出成千上万个单核苷酸多态性(SNPs)标记。(生物通:张迪)
原文摘要:
A fast and accurate SNP detection algorithm for next-generation sequencing data
Various methods have been developed for calling single-nucleotide polymorphisms from next-generation sequencing data. However, for satisfactory performance, most of these methods require expensive high-depth sequencing. Here, we propose a fast and accurate single-nucleotide polymorphism detection program that uses a binomial distribution-based algorithm and a mutation probability. We extensively assess this program on normal and cancer next-generation sequencing data from The Cancer Genome Atlas project and pooled data from the 1,000 Genomes Project. We also compare the performance of several state-of-the-art programs for single-nucleotide polymorphism calling and evaluate their pros and cons. We demonstrate that our program is a fast and highly accurate single-nucleotide polymorphism detection method, particularly when the sequence depth is low. The program can finish single-nucleotide polymorphism calling within four hours for 10-fold human genome next-generation sequencing data (30 gigabases) on a standard desktop computer.