-
生物通官微
陪你抓住生命科技
跳动的脉搏
山大泰山学者再发转录组组装新方法
【字体: 大 中 小 】 时间:2016年03月10日 来源:生物通
编辑推荐:
最近,来自山东大学和美国阿肯色州立大学的研究人员在国际著名学术杂志《PLOS Computational Biology》发表一项研究,提出了一种新的从头组装方法——BinPacker。结果表明,在所有数据集中,BinPacker优于几乎所有比较的组装软件。
生物通报道:最近,来自山东大学和美国阿肯色州立大学的研究人员在国际著名学术杂志《PLOS Computational Biology》发表一项最新生物信息学成果,题为“BinPacker: Packing-Based De Novo Transcriptome Assembly from RNA-seq Data”。 这项研究提出了一种新的从头组装方法——BinPacker,通过解决一系列的bin-packing问题,将转录组组装问题,塑造为跟踪一系列的items的轨迹,它们的大小代表它们相应亚型的覆盖度。
本文通讯作者分别为山东大学数学学院的李国君教授和阿肯色州立大学的黄秀珍博士(音译,Xiuzhen Huang)。李国君教授是山东大学首批泰山学者特聘教授、博士生导师,早年毕业于曲阜师范大学,1996年毕业于中科院数学与系统科学学院获博士学位,曾在美国、澳大利亚、香港和韩国多所大学工作或访问。2004年曾受聘为中科院软件所兼职研究员,2005年被聘为美国佐治亚大学资深研究员。主要研究领域为生物信息学、系统生物学、图论和组合最优化,在各类学术杂志上发表学术论文100余篇。
在去年3月份,李国君教授和黄秀珍博士带领的团队,在国际杂志《Genome Biology》发表一项研究,提出了一种新的转录组组装方法——Bridger,旨在为两种大众组装方法——基于参考序列的Cufflinks和从头组装方法Trinity——之间搭建一种桥梁关系。具体来说,他们采用Cufflinks所用的主要技术,来克服Trinity技术的局限性,因此开发出了一种更加先进的的从头组装方法(山大泰山学者发布新的转录组组装方法)。
RNA-seq是在全转录组水平上收集基因表达数据的强大技术,具有前所未有的灵敏度和精度。与微阵列芯片和EST测序相比,RNA-seq可获得单核苷酸的分辨率,具有更高的动态范围,并允许可靠地识别罕见的转录本和可变剪接。然而,如何使用RNA-seq数据库从头组装转录组的问题,仍然没有得到很好的模型化,例如,序列覆盖信息甚至一直没有被准确和有效地整合到合适的组装程序中,从而致使目前所有从头组装策略面临着一个瓶颈。
联川生物为研究人员提供从转录组测序发现到表达谱分析的一站式解决方案
在《PLOS Computational Biology》的这项研究中,该研究团队开发出一种新的从头算法——BinPacker,来组装全长转录本。这种方法,巧妙地将覆盖信息整合到程序中,有两个独有的特点:1)只有剪接点参与组装过程;2)通过沿着一副拼接图的接合边缘移动梳子,大量混乱的读取似乎是能被组装的。
研究人员已经在真实和模拟的数据库上测试了BinPacker,并将其与七种竞争性的从头组装软件——Trinity、ABySS、Trans-ABySS、SOAPdenovo-Trans、Oases、IDBA-Tran和Bridger,进行了比较。模拟数据集的生成在结果部分进行了描述。对真实数据集来说,使用了三个数据集,包括两个标准的RNA-Seq数据集——一个是狗和一个是人类,以及一个链特异性的小鼠RNA-Seq数据集。比较结果表明,在所有数据集中,BinPacker优于几乎所有比较的组装软件。更令人惊讶的是,在狗的数据集中,它优于StringTie——最近发表的一种ab initio计算组装软件。
另外,近两年也相继发表过几种转录组组装新方法,例如,去年1月份,来自普林斯顿大学等处的研究人员公布了一种新研发的针对转录组数据的搜索引擎,利用这一平台,研究人员可以分析多种不同的芯片和高通量测序数据,这将会带来多基因搜索数据分析的新浪潮(华人学者Nature子刊:人类转录组跨平台靶向分析)。随后的8月份在国际著名学术杂志《Genome Biology》发表的一项研究中,来自美国辛辛那提大学医学院的研究人员,提出了一种BioWardrobe平台,可让用户使用一种方便生物学家的Web界面,存储、可视化和分析表观基因组学和转录组学数据,而不需要专业的编程知识(表观基因组和转录组数据分析新平台)。
(生物通:王英)
生物通推荐原文摘要:
BinPacker: Packing-Based De Novo Transcriptome Assembly from RNA-seq Data
Abstract: High-throughput RNA-seq technology has provided an unprecedented opportunity to reveal the very complex structures of transcriptomes. However, it is an important and highly challenging task to assemble vast amounts of short RNA-seq reads into transcriptomes with alternative splicing isoforms. In this study, we present a novel de novo assembler, BinPacker, by modeling the transcriptome assembly problem as tracking a set of trajectories of items with their sizes representing coverage of their corresponding isoforms by solving a series of bin-packing problems. This approach, which subtly integrates coverage information into the procedure, has two exclusive features: 1) only splicing junctions are involved in the assembling procedure; 2) massive pell-mell reads are assembled seemingly by moving a comb along junction edges on a splicing graph. Being tested on both real and simulated RNA-seq datasets, it outperforms almost all the existing de novo assemblers on all the tested datasets, and even outperforms those ab initio assemblers on the real dog dataset. In addition, it runs substantially faster and requires less memory space than most of the assemblers. BinPacker is published under GNU GENERAL PUBLIC LICENSE and the source is available from: http://sourceforge.net/projects/transcriptomeassembly/files/BinPacker_1.0.tar.gz/download. Quick installation version is available from: http://sourceforge.net/projects/transcriptomeassembly/files/BinPacker_binary.tar.gz/download.
知名企业招聘