-
生物通官微
陪你抓住生命科技
跳动的脉搏
MAPLE:用于大规模基因组数据的系统发育工具
【字体: 大 中 小 】 时间:2023年04月13日 来源:Nature Genetics
随着生命科学实验产生的大量基因组数据,处理大型数据集仍然是生物信息学领域的一个挑战。在COVID-19大流行期间,现有生物信息学工具的有限功能意味着无法一次性分析大量数据,限制了进化和流行病学分析的范围。
为了解决这一问题,EMBL欧洲生物信息学研究所(EMBL-EBI)的研究人员领导的团队开发了一种新的生物信息学工具,可以处理大规模的基因组数据集,使科学家能够一次性分析数百万个病毒基因组。
这项研究发表在《Nature Genetics》杂志上,描述了一种新方法——最大简约似然估计(MAPLE)——它使用新的数学近似来开发一种算法,专门用于密切相关的基因组。这种新方法能够快速重建系统发育树,这是了解病毒进化和流行病学传播的关键一步。
EMBL-EBI研究人员科学家Nicola De Maio说:“在分析大流行期间传入的所有数据时,我们面临许多挑战。随着数据量的增加,传统的系统发育工具变得不够用。我们和其他人一起尝试扩展这些方法。我们尝试用超级计算机来解决这个问题,但在某种程度上,似乎什么都不管用了。这促使我们创建了MAPLE。”
在COVID-19大流行期间,研究人员努力分析产生的大量基因组数据集。这使得研究SARS-CoV-2病毒是如何进化和传播的具有挑战性。标准生物信息学工具的局限性迫使研究人员当时只能专注于一小部分样本。各地的研究人员很快意识到,他们需要更快、更有效的方法。
MAPLE最显著的优势是它能够处理大规模基因组数据集;数以百万计的微生物基因组可以同时被分析。
通常,无论是研究最近爆发的病毒和细菌,还是研究远亲物种的进化,用于研究进化的工具都是相同的。为了加快基因组流行病学中的系统发育推断,研究人员开发了一种新的算法,可以更好地用于密切相关的样本,例如,只有几十个核苷酸差异的病毒基因组,就像SARS-CoV-2基因组一样。
研究人员还意识到,在这次大流行中吸取的教训将有助于生物信息学工具的发展。为了应对未来的流行病,生物信息学工具必须处理更大规模的数据。
EMBL-EBI的小组负责人Nick Goldman说:“作为生物信息学家,我们从COVID-19大流行中学到了很多东西,但我们也需要考虑未来,以及如何更好地做好准备。生物信息学工具需要能够处理更多的数据,我们需要工具来完成一系列特定的任务。MAPLE等新工具可以为生物信息学社区的武器库增添宝贵的资源,帮助研究人员更快、更有效地处理病毒数据,以进行进化分析。”
本文由欧洲分子生物学实验室提供