-
生物通官微
陪你抓住生命科技
跳动的脉搏
宏基因组最新技术与软件(二)
【字体: 大 中 小 】 时间:2014年08月15日 来源:生物通
编辑推荐:
宏基因组分析比一般的基因组分析需要更多的借助计算机技术,这是因为这分析的是不同的基因组混合物,而不是单纯的同质微生物菌群。由此宏基因组分析也产生了比一般基因组分析更多的数据,这也是这一研究领域的一大挑战。
生物通报道:随着过去几年间,基因组测序读长越来越长,测序成本越来越低,研究人员已经开始雄心勃勃的编撰复杂微生物菌种,病毒毒株的基因组丰度和变异图谱。这种可以称之为宏基因组的研究方法首先需要从环境中收集这些微生物和病毒的细胞样品,然后进行破碎,将它们的基因组DNA降解成片段,然后通过测序仪进行分析。
宏基因组分析比一般的基因组分析需要更多的借助计算机技术,这是因为这分析的是不同的基因组混合物,而不是单纯的同质微生物菌群。由此宏基因组分析也产生了比一般基因组分析更多的数据,这也是这一研究领域的一大挑战,来自加州大学的进化生物学家 Jonathan Eisen表示。
近期The Scientist杂志汇总了一些用于微生物基因组数据分析的新技术方法与软件:
系列内容:微生物与病毒宏基因组最新技术方法汇总
Kraken
ccb.jhu.edu/software/kraken
分类分析
Kraken是2013年9月推出的,这种软件能从宏基因组样品中发现短的DNA序列,并且能以相似的精确度,但比传统的程序,如megaBLAST等更快的速度进行比对(Genome Biol, doi:10.1186/gb-2014-15-3-r46, 2014)。这种快速来自于Kraken的一种特殊数据库,用以预先计算哪些基因组中包含有特殊k-mer(一种短小的DNA序列)。
软件开发者,约翰霍普金斯大学医学院研究生Derrick Wood表示,“这是一个big idea”,“如果你能在一个阅读框中发现单个k-mers,并非常快的计算出它们可能出现在哪些基因组中,那么就能进行分类计算。”
这取决于样品中的成分,利用Karen能完成70%-90%的阅读框分类,这是一般分类的比例(如PhymmBL)。相比之下,其它程序则是通过更小的数据库加速分类,但这样的话分类的比例就只有10%左右。
如何开始:
第一步是要建立一个数据库,或从Kraken网站下载一个小数据库(MiniKraken DB,由RefSeq中的完整细菌、古细菌和病毒基因组构建)。研究人员可以添加他们觉得合适的特定基因组,接下来就可以点击Kraken进行阅读框文件(或组装片段)分析。
在进行分类后,研究人员可以通过一种称为Kraken-report的程序获得一个简单的文本结果,比如某个特殊物种中有多少阅读框。如果要得到更加复杂的数据,那么可以采用Krona,这是宏基因组数据的一种浏览器。
在这个过程中,你不过过多的了解这一程序是如何运行的,至今为止用户都表示运行结果良好。
费用:
免费,软件资源库GitHub(github.com)上可以提供源代码。
MG-RAST
metagenomics.anl.gov
分类、功能分析及比较分析;数据共享
MG-RAST是2007年被开发出来的,这是一种能帮助研究人员获得宏基因组比对和功能性分析的服务器。用户能选择公布他们的研究结果,或者他人共享(私下)。这种工具包括众多数据质量readouts,如 DRISEE,采用人工复制阅读框来预测测序错误百分比,以及核苷酸位置直方图(histograms)。
如何开始:
登陆MG-RAST 网站,进行注册,并上传数据。或者也可以使用一些界面(如API) 来编写自己的代码——这是全开放源代码。“如果你是位生物信息学家,会发现这很容易。如果你是一名生物学家,那么就可能需要一些训练,”来自阿贡国家实验室的开发者Folker Meyer表示。
费用:
免费,前提是你能忍受等待一周左右的时间。如果要得到立即的答案,那么就需要计算机知识和时间。(新版本很快就会出炉)
注意事项:
虽然所有的算法都是开放源代码,但是如果自己执行计算,就会既昂贵又耗时。一些新用户希望能让他们的学生来运行质控,Meyer说。他建议他们去比较MG-RAST和学生计算的结果,确保结果的可靠性。
(生物通)