-
生物通官微
陪你抓住生命科技
跳动的脉搏
《Nature》人工智能模型设计了自然界中没有的蛋白质
【字体: 大 中 小 】 时间:2023年11月17日 来源:Nature
编辑推荐:
Generate:Biomedicines的研究人员在机器学习、生物工程和医学的交叉领域工作,重点是蛋白质设计。现在,他们提出了一种生成式人工智能模型,即Chroma,该模型可以创造出自然界中以前未发现的具有可编程特性的新型蛋白质,具有治疗潜力,并在实验室中取得了实验成功。该公司已经将Chroma的代码开源,以供广泛使用。
在人工智能革命之前,蛋白质设计方法仅限于基于自然界现有蛋白质生成设计,这存在局限性,因为大自然只对可能的蛋白质景观的一小部分进行了采样。相比之下,生成式人工智能方法强调从头开始的蛋白质设计——从零开始设计新的蛋白质——以扩大功能和理想属性的范围,超越自然界已经实现的功能。
在《Nature》杂志上发表的一项名为“用可编程生成模型照亮蛋白质空间”的新研究中,研究人员提出了一种名为Chroma的生成式人工智能(AI)模型,该模型创造了自然界中以前未发现的具有可编程特性的新型蛋白质,具有治疗潜力,并在实验室中取得了实验成功。Chroma用于在外部约束下设计蛋白质,包括对称性、子结构、形状,甚至是自然语言提示。实验表征了从Chroma产生的310种蛋白质,这些蛋白质表达、折叠并具有良好的生物物理特性。
这项工作来自马萨诸塞州萨默维尔(Somerville)的Generate:Biomedicines公司,该公司致力于机器学习、生物工程和医学的交叉研究,重点是蛋白质设计。
Biomedicines的联合创始人兼首席技术官Gevorg Grigoryan博士指出,可编程性从一开始就是Chroma框架不可或缺的一部分,因为生产治疗应用需要的不仅仅是生成可以通过实验验证的结构。评估蛋白质的功能,如结合、变构控制和酶活性,对治疗潜力至关重要。
此外,这项研究的一个新颖之处在于,当考虑在蛋白质设计活动中进行实验验证时,它改变了范式。
“我们的目标不是‘我想让这种蛋白质起作用’,而是表征这种模型。我们想了解Chroma学到的东西有多少是真实的,多少是不真实的,”Grigoryan说。
在决定实验验证哪些计算结构时,常用的方法包括一个过滤步骤,在这个步骤中,蛋白质设计者根据他们对生物物理结构的理解来批评设计,例如由于溶解度问题而惩罚疏水区域的过度代表。
蛋白质设计领域传统的“自下而上”方法,即基于原子的生物物理动力学模拟蛋白质行为,在逻辑上是“精细和一致的”,但并没有带来现在通过机器学习可以实现的进步。
机器学习方法不是从第一原理开始,评估模拟是否准确,而是从观察开始,推断导致这些观察的原理。
具体来说,Chroma利用了扩散模型,这是一种机器学习工具,在图像生成工具中取得了相当大的成功,例如Midjourney、OpenAI的DALL-E 2和Stability AI的Stable diffusion。这些生成模型学习训练数据的模式,并生成具有相似特征的新输出。这个框架使Chroma具有可塑性,可以引入新的可编程条件。
“为新属性创建模型并将其插入Chroma非常容易。与DALL-E图像生成器类似,您不必为动物、海滩和山脉创建单独的图像模型。你只要告诉模型,‘我想要一只戴着宽边帽在海滩上跳舞的熊猫’,它就能为你生成这样的场景。”
Chroma并不是唯一利用扩散模型进行蛋白质设计的生成式人工智能工具。今年7月,华盛顿大学(UW)蛋白质设计研究所(IPD)主任、生物化学教授David Baker博士的实验室在《Nature》杂志上发表了他们的扩散模型RoseTTAFold扩散(RFdiffusion),该模型证明了强有力的实验验证和易用性。
“到目前为止,[Chroma]只被实验证明可以设计新的结构,但可能适用于设计新的蛋白质,肽和小分子相互作用,正如RFdiffusion所证明的那样,”Baker说。
有效的蛋白质设计模型只是更广泛的治疗发现过程的一部分。
“Chroma是一个模型,而不是药物打印机。还有很多东西要做治疗,这可能是资源密集型的,涉及干湿实验室之间非常紧密的整合,”Grigoryan说。
Chroma背后的代码作为开源软件提供给学术界和工业界的所有研究人员。
“我们的意图是在发布预印本之前先开源。从社会的角度来看,阻碍[Chroma]在推进生物医学科学以及其他应用(如纳米技术和材料科学)方面的作用是不对的,”Grigoryan解释说。
从公司的角度来看,Grigoryan还指出,能够继续走在科学前沿的能力与公司吸引和留住最优秀人才的能力有关。分享这项工作是为研究界做出贡献的关键行动。
虽然扩散模型是“当下的潮流”,但新的蛋白质设计工具有望渗透到一个快速增长的领域。
“既然代码是可用的,(全人类)当然可以自由地在其基础上进行构建并创建更好的版本。我期待并希望这正是发生的事情。”
Illuminating protein space with a programmable generative model