-
生物通官微
陪你抓住生命科技
跳动的脉搏
人工智能工具正在设计全新的蛋白质,可能会改变医学
【字体: 大 中 小 】 时间:2023年07月13日 来源:nature
编辑推荐:
数字艺术技术现在可以根据需要设计定制的、工作的生物分子。
“好吧。我们开始吧。”西雅图华盛顿大学(UW)的计算化学家David Juergens即将设计出一种蛋白质,经过30多亿年的修补,进化从未产生过这种蛋白质。在视频通话中,Juergens打开了他参与开发的人工智能(AI)工具的云版本,该工具名为RFdiffusion。这种神经网络,以及其他类似的神经网络,正在帮助将定制蛋白质的创造——直到最近,这还是一种高度技术性且常常不成功的追求——带入主流科学。
这些蛋白质可以构成疫苗、疗法和生物材料的基础。“这是一个完全变革的时刻,”马萨诸塞州萨默维尔的生物技术公司Generate Biomedicines的联合创始人兼首席技术官格Gevorg Grigoryan说。该公司将蛋白质设计应用于药物开发。
这些工具的灵感来自人工智能软件,该软件可以合成逼真的图像,比如Midjourney软件,今年,该软件被用来制作教皇弗朗西斯(Pope Francis)穿着设计师设计的白色羽绒服的照片。研究人员发现,类似的概念方法可以根据设计者指定的标准大量生产出现实的蛋白质形状——这意味着,例如,可以快速绘制出与另一种生物分子紧密结合的新蛋白质。早期的实验表明,当研究人员制造这些蛋白质时,一部分有用的蛋白质确实按照软件的建议发挥作用。
研究人员说,在过去的一年里,这些工具彻底改变了设计蛋白质的过程。纽约市哥伦比亚大学的计算生物学家Mohammed AlQuraishi说:“这是一种能力的爆炸。”他的团队已经开发出一种这样的蛋白质设计工具。“你现在可以创造出具有受欢迎品质的设计。”
华盛顿大学的计算生物物理学家David Baker说:“你正在为一个问题构建一个定制的蛋白质结构。”他所在的团队(包括Juergens)开发了射频扩散。该团队于2023年3月发布了该软件,本周在《Nature》杂志上发表了一篇描述神经网络的论文。(预印本于2022年底发布,几乎与此同时,其他几个团队,包括AlQuraishi的2和Grigoryan的3,也报告了类似的神经网络)。
Grigoryan补充说,蛋白质设计师现在第一次拥有了可复制和强大的工具,可以围绕这些工具创建一个新的产业。“下一个挑战是,你要用它做什么?”
Juergens将他想要的蛋白质的一些规格输入到一个类似于在线税收计算器的网络表格中。它必须有100个氨基酸长,形成对称的两种蛋白质复合物,称为同型二聚体。许多细胞受体采用这种结构,一种新的同型二聚体可能是一种合成的细胞信号分子,华盛顿大学的计算生物化学Joe Watson说,他参与开发了射频扩散,也在视频通话中。但今天早上的设计并不是为了做任何事情,只是像一个现实的蛋白质。
几十年来,研究人员一直在努力构建新的蛋白质。起初,他们试图将现有蛋白质的有用部分拼凑在一起,比如催化化学反应的酶的口袋。这种方法依赖于对蛋白质如何折叠和工作的理解,以及直觉和大量的试验和错误。科学家们有时会筛选数千种设计,以确定其中一种能达到预期效果。
Baker说,AlphaFold(由总部位于伦敦的人工智能公司DeepMind开发,现为谷歌DeepMind)和其他基于人工智能的模型带来了一个灵光一现的时刻,这些模型可以从氨基酸序列中准确预测蛋白质结构。设计师们意识到,这些经过真实蛋白质序列和结构训练的神经网络,也可以帮助从零开始创造蛋白质。
在过去的几年里,Baker的团队和该领域的其他人已经发布了一系列基于人工智能的蛋白质设计工具。这些工具使用的一种方法被称为幻觉,它包括创建一串随机的氨基酸,然后由AlphaFold或类似的工具RoseTTAFold进行优化,直到它看起来像神经网络认为可能折叠成特定结构的东西。另一种被称为inpainting的方法是获取蛋白质序列或结构的特定片段,并使用RoseTTAFold在其周围构建分子的其余部分。
但这些工具远非完美。实验倾向于表明,通过幻觉方法设计的结构在实验室中制造时并不总是形成折叠良好的蛋白质,例如,最终在试管底部成为粘稠物。产生幻觉的方法除了制造小的蛋白质外,还很难制造任何东西(尽管其他研究人员在2月份的一篇预印本中展示了如何利用这种技术来设计更长的分子)。当给予较短的片段时,Inpainting在形成蛋白质方面也做得很差。即使这种方法确实产生了一个理论上的蛋白质结构,它也无法为一个问题提供多种解决方案,从而增加成功的几率。
这就是近几个月发布的射频扩散和类似的蛋白质设计人工智能的用线。它们基于与生成真实图像的神经网络相同的原理,例如Stable Diffusion, DALL-E和Midjourney。这些“扩散”网络是在数据上训练的,无论是图像还是蛋白质结构,然后这些数据逐渐变得嘈杂,最终与开始的图像或结构没有相似之处。然后,网络学会对数据进行“去噪”,反向执行任务。
像RFdiffusion这样的网络是在成千上万个真实的蛋白质结构上进行训练的,这些结构存储在一个叫做蛋白质数据库(PDB)的存储库中。当这个网络产生一种新的蛋白质时,它开始时完全是噪音:氨基酸的随机组合。Watson解释说:“你要问的是产生噪音的蛋白质是什么。经过几轮去噪后,它产生了一种类似于真实的——但却是新的——蛋白质的东西。
当Baker的团队测试RF扩散时,除了蛋白质的长度外,没有提供任何指导,网络产生了多种多样的、看起来很真实的蛋白质,与在PDB中训练过的任何蛋白质都不同。
但研究人员也能够在去噪过程中指导程序根据特定的设计约束来制造蛋白质,这一过程被称为条件反射。
例如,Baker的团队对射频扩散进行了条件反射,使其产生包含特定折叠的蛋白质,或者可以附着在另一个分子表面的蛋白质(这是一种相互作用,是结合的基础)。Grigoryan的团队甚至开发了一种名为Chroma的扩散网络,然后对其进行调节,使蛋白质的形状与英语中使用的26个大写字母以及阿拉伯数字相似。
Juergens的电脑屏幕最初显示的是噪音,即人工智能系统开始时随机排列的氨基酸。它们被描绘成红色的、污浊的、像小孩子手指画一样的字迹。它们一帧接一帧地变形成越来越复杂的形状,具有类似蛋白质的特征,如被称为α-螺旋的紧密螺旋形状和被称为β-薄片的折叠式带状形状。“这是一个很好的混合拓扑结构,”Juergens微笑着说,因为他欣赏这个只花了几分钟就完成的发明。“这看起来不错。”
这个工具在贝克的实验室里得到了广泛的应用。“与一年前相比,设计过程几乎面目全非,”他说。神经网络在效率低下、困难或不可能使用其他方法的设计挑战方面表现出色。
在他们研究报告的一项分析中,研究人员从另一种蛋白质的片段开始,比如免疫细胞识别的病毒蛋白质的一部分,并让基于人工智能的工具大量生产100种不同的新蛋白质,看看有多少会包含所需的基序。该团队对25种不同的初始形状进行了挑战。结果并不总是包含起始片段,但RF扩散产生了至少一种蛋白质,可以用于23个基序,相比之下,有15个基序用于幻觉,12个基序用于绘画。
射频扩散也被证明擅长于使蛋白质自组装成复杂的纳米颗粒,这种纳米颗粒可能能够输送药物或疫苗成分。以前的人工智能方法也可以制造这类蛋白质,但Watson说,射频扩散的设计要复杂得多。
像RF扩散这样的神经网络在设计能够粘附到另一种特定蛋白质上的蛋白质时,似乎真的很有效果。贝克的研究小组利用该网络制造出了与癌症、自身免疫性疾病和其他疾病相关的蛋白质紧密结合的蛋白质。他说,一个尚未发表的成功是为一种名为肿瘤坏死因子受体的难以靶向的免疫信号分子设计了强大的粘合剂——抗体药物的靶标,每年产生数十亿美元的收入。Watson说:“这扩大了蛋白质的空间,我们可以制造粘合剂,并为其制造有意义的治疗方法。”
贝克的团队制作了如此多的设计,以至于测试它们是否按预期工作已经成为一个严重的瓶颈。位于马萨诸塞州剑桥市的微软研究院(Microsoft Research)生物医学机器学习研究员Kevin Yang说:“一个学习机器的人可以设计出足够100个生物学家忙上几个月的设计。”他的团队已经开发出了自己的基于扩散的蛋白质设计工具。
但早期迹象表明,RFdiffusion公司的产品是货真价实的。在他们的研究中描述的另一个挑战中,Baker的团队要求该工具设计含有p53关键片段的蛋白质,p53是一种在许多癌症中过度活跃的信号分子(也是一种抢手的药物靶点)。研究人员设计了95种软件(通过改造细菌来表达蛋白质),其中一半以上保持了p53与其天然目标MDM2结合的能力。最好的设计比天然的p53强1000倍。Watson说,当研究人员尝试用幻觉来完成这项任务时,这些设计——尽管预计会起作用——并没有在试管中成功。
总的来说,Baker表示,他的团队发现,10-20%的RFdiffusion设计与预期目标的结合程度足够强,足以发挥作用,相比之下,早期的前ai方法的这一比例不到1%。(Watson说,以前的机器学习方法无法可靠地设计粘合剂)。华盛顿大学的一位同事,生物化学家Matthias Gloegl说,最近他的成功率已经接近50%,这意味着只需一两个星期就能想出可行的设计,而不是几个月。“这真的很疯狂,”他说。
马萨诸塞州剑桥市哈佛大学的进化生物学家Sergey Ovchinnikov表示,截至6月底,基于云的RFdiffusion每天约有100名用户。澳大利亚悉尼大学(University of Sydney)的生化学家Joel Mackay一直在尝试利用射频扩散技术来设计能够与他实验室研究的其他蛋白质结合的蛋白质,其中包括控制细胞中基因活性的转录因子分子。他发现设计过程很简单,并使用计算机建模来验证,理论上,蛋白质应该与转录因子结合。
Mackay现在正在测试这些蛋白质在细胞中产生时是否能像预期的那样改变基因表达。他祈求好运,因为这样的发现相当于一种在细胞内开关特定转录因子的简单方法,而不是使用可能需要数年才能识别的药物,如果它们能被发现的话。他说:“如果这种方法对我们这种类型的蛋白质有效,它将彻底改变游戏规则。”
英国牛津大学的免疫信息学家Charlotte Deane说,像射频扩散这样的最新模型是一个“阶段性的改变”。但关键挑战依然存在。她说:“这将激励人们看到我们能把这些扩散方法推进多远。”她和其他科学家及生物技术公司特别感兴趣的一个应用是设计更复杂的结合蛋白,如抗体,或T细胞(一种免疫细胞)使用的蛋白质受体。这些蛋白质具有与它们的靶标互锁的柔性环,这与RF扩散迄今为止擅长的三明治状平面界面相反,他们在抗体方面取得了进展。
一般来说,设计生物分子是具有挑战性的,因为它们的功能取决于软性区域,软性区域使它们能够采用许多不同的形状。事实证明,使用人工智能很难对这些特征进行建模。“如果问题是,我们能否与其他物质结合并抑制它,”Ovchinnikov说,“我认为这个问题将通过这些方法得到解决。但为了做一些更复杂的事情,更像大自然,你需要引入一些灵活性。”
加州大学旧金山分校的计算生物学家Tanja Kortemme正在使用射频扩散技术设计可以用作传感器或开关来控制细胞的蛋白质。她说,如果一个蛋白质的活性位点取决于几个氨基酸的位置,人工智能网络做得很好,但它很难设计具有更复杂活性位点的蛋白质,这需要更多的关键氨基酸到位——这是她和她的同事们正在努力解决的一个挑战。
Yang说,最新扩散方法的另一个限制是它们无法产生与天然蛋白质有很大不同的蛋白质。他说,这是因为人工智能系统只接受了科学家已经描述过的现有蛋白质的训练,并倾向于创造出与这些蛋白质相似的蛋白质。要想产生更像外星人的蛋白质,可能需要更好地理解赋予蛋白质功能的物理原理。
这可能会使设计蛋白质更容易执行自然蛋白质从未进化过的任务。“还有很大的增长空间,”Yang说。
AlQuraishi说,最新的蛋白质设计工具已经被证明在创造可以完成特定任务的蛋白质方面非常强大——只要这种功能可以用形状来描述,比如要结合的蛋白质的表面。但是,他补充说,像RF扩散这样的工具还不能处理其他类型的规格,比如制造一种可以进行特定反应的蛋白质,而不管它的形状——当“你知道你想要什么,但你不知道它的几何形状是什么”。
Grigoryan说,未来的蛋白质设计工具还需要有能力根据不同的标准大量生产蛋白质。一种潜在的治疗蛋白不仅要与它的靶标结合,而且要不与其他蛋白结合,而且要具有易于批量生产的特性。
研究人员正在探索的一个方向是,是否可以使用简单的语言文本描述来设计蛋白质,类似于提供给Midjourney等图像生成工具的提示。“你真的可以想象,我们将能够写出一种蛋白质的描述,并将它们合成和测试,”Watson说。
Grigoryan和他的同事已经朝着这个目标迈出了一步。在2022年12月的预印本中,他们训练Chroma将描述附加到其设计中,并根据文本规范发布设计,包括“具有CHAD结构域的蛋白质”(一种包含多个螺旋的蛋白质形状)或“氨基转移酶的晶体结构”(参与制造和分解蛋白质的酶)。
今天早上,Juergens在几分钟内创造出的蛋白质只是蛋白质三维结构的一个模型。然后,Juergens使用另一种人工智能工具来绘制氨基酸序列,这些氨基酸应该折叠成这种结构。作为最后的检查,他将这些序列插入AlphaFold,看看该软件是否预测出与设计相匹配的折叠结构。它们是正确的,AlphaFold的预测与设计的平均差异只有1氢原子的宽度。
Watson说:“我们认为这是设计上的成功。”剩下唯一要做的就是观察这种蛋白质在现实生活中的表现。