-
生物通官微
陪你抓住生命科技
跳动的脉搏
清华大学师生新文章:RNA深度测序分析方法
【字体: 大 中 小 】 时间:2011年02月25日 来源:生物通
编辑推荐:
来自清华大学国家实验室生物信息学研究部的研究人员发表了题为“Using non-uniform read distribution models to improve isoform expression inference in RNA-Seq”的最新研究论文,这篇文章解析了RNA深度测序分析方法,成果公布在生物信息学权威期刊《Bioinformatics》上,并入选了Science Watch新闻网站的快速突破论文(Fast Breaking Papers)。
生物通报道:来自清华大学国家实验室生物信息学研究部的研究人员发表了题为“Using non-uniform read distribution models to improve isoform expression inference in RNA-Seq”的最新研究论文,这篇文章解析了RNA深度测序分析方法,成果公布在生物信息学权威期刊《Bioinformatics》上,并入选了Science Watch新闻网站的快速突破论文(Fast Breaking Papers)。
这项研究由清华大学张学工教授和汪小我博士等人完成,张学工教授任清华信息科学与技术国家实验室生物信息学部主任,主要研究方向是生物信息学、计算功能基因组学与系统生物学,疾病基因组学等。
新一代测序技术又称作深度测序技术,主要特点是测序通量高,测序时间和成本显著下降,把这种高通量测序技术应用到RNA上,也就是将各种类型的转录本用深度测序技术进行高通量定量检测,统称作RNA-seq或RNA测序。随着新一代高通量DNA测序技术的快速发展,RNA测序(RNA-seq)已成为基因表达和转录组分析的重要手段。
RNA测序也是分析同一基因的基因亚型的有效方法,这种分析方法需要一些修订模型,尤其是当RNA序列数据不是均匀分布的时候,最新这篇文章中就提出了一种non-URD(N-URD)模型,可以用于推断亚型表达水平,研究人员通过一系列的系统模拟研究,证明了这种模型超越了原始模型,能恢复主要亚型,分析可变亚型的表达比率。
之后研究人员进一步在RNA测序数据库中应用了这一新模型,结果发现利用这一模型获得的可变亚型表达比率的推论分析更加合理,这些都说明了N-URD模型能提高RNA测序中亚型表达建模和推论的精确性。
近年来清华大学在RNA测序方面进行了许多深入的研究,比如其提出的分析方法和分析软件DEGseq就是国际上这一领域最早提出的此类分析方法之一,目前已被国内外很多实验室使用。
除了这一成果外,《Bioinformatics》近期还发表了另外一项miRNAs测序研究新成果:来自特拉维夫大学的研究人员开发了一种称为“miRNAkey”的软件,这种软件能在健康及疾病组织中搜寻microRNA,从而促进科学家们对于深度测序数据的理解。
利用miRNAkey软件可快速准确地分析深度测序获得的数据,从而可更深入地了解疾病行为,并通过这些信息建立有潜力的个体化治疗方法,开发出特异靶向损伤细胞的药物。
著名的Illumina公司也提供有RNA测序相关服务,Genome Analyzer系列产品也可以用于RNA测序,目前可以提供小RNA大规模测序分析,捕获物种全基因组水平的miRNA图谱,实现包括新miRNA分子的挖掘,其作用靶基因的预测和鉴定、样品间差异表达分析、miRNAs聚类和表达谱分析等科学应用。
(生物通:张迪)
原文摘要:
Using non-uniform read distribution models to improve isoform expression inference in RNA-Seq
Motivation: RNA-Seq technology based on next-generation sequencing provides the unprecedented ability of studying transcriptomes at high resolution and accuracy, and the potential of measuring expression of multiple isoforms from the same gene at high precision. Solved by maximum likelihood estimation, isoform expression can be inferred in RNA-Seq using statistical models based on the assumption that sequenced reads are distributed uniformly along transcripts. Modification of the model is needed when considering situations where RNA-Seq data do not follow uniform distribution.
Results: We proposed two curves, the global bias curve (GBC) and the local bias curves (LBCs), to describe the non-uniformity of read distributions for all genes in a transcriptome and for each gene, respectively. Incorporating the bias curves into the uniform read distribution (URD) model, we introduced non-URD (N-URD) models to infer isoform expression levels. On a series of systematic simulation studies, the proposed models outperform the original model in recovering major isoforms and the expression ratio of alternative isoforms. We also applied the new model to real RNA-Seq datasets and found that its inferences on expression ratios of alternative isoforms are more reasonable. The experiments indicate that incorporating N-URD information can improve the accuracy in modeling and inferring isoform expression in RNA-Seq.
作者简介:
张学工,博士,模式识别与生物信息学教授。1989年7月于清华大学获工业自动化专业工学学士学位。1994年3月于清华大学获模式识别与智能系统专业工学博士学位。1994–1996 任清华大学自动化系讲师。1996–2002任 清华大学自动化系模式识别理论及应用副教授。1999– 2007 任清华大学自动化系信息处理研究所所长。2001–2002 在哈佛大学公共卫生学院生物统计系做高级访问学者。2006.2-3 在哈佛大学公共卫生学院做访问科学家。2002 至今任清华大学生物信息学教育部重点实验室副主任。2002 至今任清华大学自动化系模式识别与生物信息学教授。2003 至今任清华信息科学与技术国家实验室(筹)生物信息学部主任。2007.3-4在南加州大学分子与计算生物学系做访问学者。
研究方向:
机器学习与模式识别的理论、方法与应用: 支持向量机(SVM)与统计学习理论、核函数机器、人工神经网络与自组织映射(SOM)、推广机器(psi-学习)、贝叶斯网络。
生物信息学、计算功能基因组学与系统生物学。
疾病基因组学:复杂疾病的基因组学与蛋白质组学分析。
基因芯片数据分析:基因表达数据挖掘,样本和基因的监督与非监督分类,基因选择,可视化,基因表达数据中的隐藏模式发现。
基因型与单倍型分析:Haplotype block分析与htSNP选择,重组分析。
微小RNA和可变剪接研究。
中医药现代化中的模式识别:中药材产地与质量的自动鉴别、中药药效和作用机理的科学分析。
蛋白质组学数据分析:质谱蛋白质表达数据的处理和分析。
生物文献挖掘:从文献摘要中挖掘基因关系网络。
生物序列分析:motif发现与识别。
曾获奖励:
2006年国家杰出青年基金; 2004年教育部新世纪优秀人才支持计划; 2002年国家科技进步二等奖; 2001年中国海洋石油总公司科技进步一等奖; 1995年国家教委科技进步二等奖。