-
生物通官微
陪你抓住生命科技
跳动的脉搏
AlphaFold书写蛋白质结构图谱,挖掘到了惊人发现
【字体: 大 中 小 】 时间:2023年09月14日 来源:nature
去年,谷歌DeepMind使用AlphaFold预测了几乎所有已知生物蛋白质的基因组数据结构,在AlphaFold数据库中积累了大约2.14亿个结构,该数据库由位于英国欣克斯顿的欧洲分子生物学实验室的欧洲生物信息学研究所(EMBL-EBI)托管。
首尔国立大学(Seoul National University)的计算生物学家Martin Steinegger对绘制整个数据库的关系很感兴趣,他说,科学家们立即发现了这个资源,但他们中的许多人只关注单一结构,或相关结构家族。“我认为看看我们的结构宇宙到底有多大会很有趣。”
为此,由Steinegger和瑞士苏黎世联邦理工学院的计算生物学家Pedro Beltrao共同领导的团队开发了一种工具,可以根据形状的相似性快速比较数据库中的每个结构。这在AlphaFold数据库中确定了超过200万个形状相似的蛋白质“簇”。
研究人员通常使用由基因编码的蛋白质序列来进行这种比较。但是,与蛋白质的结构相比,蛋白质序列在进化过程中往往变化得更快,这限制了发现非常遥远的蛋白质的能力。施泰因格估计,通过比较蛋白质结构,他们识别出的相关蛋白质簇的数量是只使用序列的10倍。
研究人员才刚刚开始探索蛋白质宇宙中这些新发现的“星系”,但他们已经发现了一些令人惊讶的联系。例如,他们发现人类和其他复杂生物体用来检测病毒DNA并触发快速免疫攻击的一种蛋白质与单细胞细菌和古细菌的蛋白质在一个簇中——这是一个以前不知道的联系,Steinegger说。
对超过三分之一的蛋白质簇几乎一无所知。“我真的希望生物学家能给这个黑暗带来一些光明,”Steinegger说。
另一个团队采用了一种稍微不同的方法来照亮蛋白质宇宙中的暗物质。瑞士巴塞尔大学和SIB瑞士生物信息学研究所的计算生物学家Joana Pereira、Janani Durairaj、Torsten Schwede和他们的同事创建了一个网络,连接了AlphaFold数据库中超过5000万个最准确预测的结构(该工具提供了一种衡量它认为其预测有多好的方法)。然后,他们利用这些分组来确定蛋白质宇宙中一些最黑暗的角落。
一个令人欣喜的惊喜是一种以前从未见过的蛋白质形状。研究人员将其命名为“β -花”,因为这种结构包含了许多发夹状的旋转——在一种已知的蛋白质形状中被发现,这种形状被称为β -桶——类似于花朵上的花瓣。Pereira说,含有β花的蛋白质彼此之间有远亲关系,但不清楚它们的作用,他正在进一步研究这种形状。
“这项工作实际上打开了潘多拉的盒子。我们必须决定优先考虑哪些,”Pereira补充道。她和她的同事们希望其他研究人员利用他们的网络,看看他们最喜欢的蛋白质是如何融入更广阔的分子宇宙的。
伦敦大学学院的计算生物学家Christine Orengo很高兴有了探索蛋白质宇宙的新方法。但她警告说,一些被认为对整个蛋白质高度准确的AlphaFold预测,可能不太准确地代表研究人员感兴趣的蛋白质功能部分或结构域的形状。奥伦戈说,抛开这些异常,研究人员仍然有一个新的蛋白质家族的宝库,“这是令人难以置信的兴奋。”
这些研究视为一个新领域的开端,在这个领域中,蛋白质结构的研究可以立刻达到不可想象的规模。