-
生物通官微
陪你抓住生命科技
跳动的脉搏
人工智能系统生成的蛋白质有多“新”——超越自然界了
【字体: 大 中 小 】 时间:2023年04月25日 来源:AAAS
编辑推荐:
一种新的机器学习系统可以生成具有某些结构特征的蛋白质设计,这些结构特征在自然界中不存在。这些蛋白质可以用来制造与现有材料具有相似机械性能的材料,比如聚合物,但碳足迹要小得多。
麻省理工学院的研究人员正在使用人工智能来设计超越自然界的新蛋白质。
他们开发了机器学习算法,可以生成具有特定结构特征的蛋白质,这些蛋白质可以用来制造具有某些机械性能的材料,比如刚度或弹性。这种受生物启发的材料有可能取代由石油或陶瓷制成的材料,但碳足迹要小得多。
来自麻省理工学院和塔夫茨大学的研究人员采用了一种生成模型,这与DALL-E 2等人工智能系统中使用的机器学习模型架构相同。但是,他们没有像DALL-E 2那样使用它从自然语言提示中生成逼真的图像,而是对模型结构进行了调整,使其能够预测达到特定结构目标的蛋白质的氨基酸序列。
在即将发表在《Chem》杂志上的一篇论文中,研究人员展示了这些模型如何产生现实的、新颖的蛋白质。资深作者、杰里·迈克菲工程教授、土木与环境工程和机械工程教授Markus Buehler说,这些模型学习了控制蛋白质形成的生化关系,可以产生新的蛋白质,从而实现独特的应用。
例如,这个工具可以用来开发蛋白质启发的食品涂层,可以使农产品保持更长时间的新鲜,同时对人类食用安全。他补充说,这些模型可以在几天内产生数百万种蛋白质,迅速为科学家们提供了一系列新的想法来探索。
为任务调整新工具
蛋白质是由氨基酸链以3D模式折叠在一起形成的。氨基酸的顺序决定了蛋白质的力学性质。虽然科学家们已经确定了数千种通过进化产生的蛋白质,但他们估计还有大量的氨基酸序列尚未被发现。
为了简化蛋白质的发现,研究人员最近开发了深度学习模型,可以预测一组氨基酸序列的蛋白质的3D结构。但是相反的问题——预测满足设计目标的氨基酸结构序列——被证明更具挑战性。
机器学习的新出现使Buehler和他的同事能够解决这个棘手的挑战:基于注意力的扩散模型。以注意力为基础的模型可以学习非常长期的关系,这是开发蛋白质的关键,因为长氨基酸序列的一个突变可以成就或破坏整个设计。扩散模型通过一个过程来学习生成新数据,这个过程包括向训练数据添加噪声,然后学习通过去除噪声来恢复数据。它们通常比其他模型更有效地生成高质量、真实的数据,这些数据可以通过条件调整来满足一组目标目标,以满足设计需求。
研究人员使用这种结构建立了两个机器学习模型,可以预测各种新的氨基酸序列,这些氨基酸序列形成符合结构设计目标的蛋白质。
氨基酸的共同折叠模式,被称为二级结构,产生不同的机械性能。例如,具有α螺旋结构的蛋白质产生弹性材料,而具有β薄片结构的蛋白质产生刚性材料。结合螺旋和薄片可以制造出弹性强的材料,就像丝绸一样。
研究人员开发了两种模型,一种是在蛋白质的整体结构特性上运行,另一种是在氨基酸水平上运行。这两种模型都是通过结合这些氨基酸结构来产生蛋白质。对于操作整体结构属性的模型,用户输入所需的不同结构百分比(例如,40%的α -螺旋和60%的β -薄片)。然后模型生成符合这些目标的序列。对于第二个模型,科学家还指定了氨基酸结构的顺序,这提供了更细粒度的控制。
这些模型与预测蛋白质折叠的算法相连接,研究人员用它来确定蛋白质的3D结构。然后他们计算得到的属性,并根据设计规范检查这些属性。
现实而新颖的设计
他们通过将新蛋白质与具有相似结构特性的已知蛋白质进行比较来测试他们的模型。许多与现有的氨基酸序列有一些重叠,在大多数情况下约为50%至60%,但也有一些完全新的序列。这种相似性表明许多生成的蛋白质是可以合成的。
为了确保预测的蛋白质是合理的,研究人员试图通过输入物理上不可能的设计目标来欺骗模型。令他们印象深刻的是,这些模型并没有产生不可能的蛋白质,而是产生了最接近的可合成溶液。
接下来,研究人员计划在实验室中制造一些新的蛋白质设计,并对它们进行实验验证。他们还想继续扩大和完善这些模型,这样他们就可以开发出符合更多标准的氨基酸序列,比如生物功能。
这篇论文的第一作者Bo Ni是Buehler的原子与分子力学实验室的博士后。“学习算法可以发现自然界中隐藏的关系。这让我们有信心说,我们的模型得出的任何结果都很可能是现实的,”Ni说。
“当你考虑设计自然界尚未发现的蛋白质时,它是一个如此巨大的设计空间,你不能仅仅用铅笔和纸来分类。你必须弄清楚生命的语言,氨基酸是如何被DNA编码,然后聚集在一起形成蛋白质结构的。在我们有深度学习之前,我们真的做不到这一点,”Buehler说。“在生物医学行业,你可能不想要一种完全未知的蛋白质,因为那样你就不知道它的性质。但在某些应用中,你可能需要一种全新的蛋白质,它与自然界中发现的蛋白质相似,但功能不同。我们可以用这些模型生成一个光谱,我们可以通过调节某些旋钮来控制它。对于我们感兴趣的应用,比如可持续性、医药、食品、健康和材料设计,我们需要超越自然所做的。这是一种新的设计工具,我们可以用它来创造潜在的解决方案,帮助我们解决我们面临的一些真正紧迫的社会问题。”
Generative design of de novo proteins based on secondary structure constraints using an attention-based diffusion model