-
生物通官微
陪你抓住生命科技
跳动的脉搏
Nature子刊:新蛋白质设计的深度学习
【字体: 大 中 小 】 时间:2023年08月07日 来源:AAAS
编辑推荐:
在“从头开始”或从头开始的计算蛋白质设计中,深度学习方法已被用于增强现有的基于能量的物理模型,从而在实验室中验证了将设计的蛋白质与其目标蛋白质结合的成功率提高了10倍。研究结果将帮助科学家设计出更好的药物来对抗癌症和COVID-19等疾病。
理解蛋白质——比如那些控制癌症、COVID-19和其他疾病的蛋白质——的关键非常简单。确定它们的化学结构,并找出哪些其他蛋白质可以与它们结合。但这里有个问题。
“蛋白质的搜索空间是巨大的,”华盛顿大学蛋白质设计研究所和霍华德休斯医学研究所的研究科学家布莱恩考文垂说。
他的实验室研究的蛋白质通常由65种氨基酸组成,每个位置有20种不同的氨基酸选择,就有65的20次方次方的结合组合,这个数字比宇宙中原子的估计数量还要大。
在最新研究中,他的团队使用深度学习方法在“从头开始”或从头开始计算蛋白质设计中增强现有的基于能量的物理模型,结果在实验室中验证了将设计的蛋白质与目标蛋白质结合的成功率提高了10倍。
“我们表明,通过结合深度学习方法来评估氢键形成或疏水相互作用的界面质量,你可以显著改善管道,”研究合著者纳撒尼尔·贝内特(Nathaniel Bennett)说,他是华盛顿大学蛋白质设计研究所的博士后学者。
“这与试图一一列举所有这些能量是相反的,”他补充说。
读者可能熟悉深度学习应用程序的流行示例,例如语言模型ChatGPT或图像生成器DALL-E。
深度学习使用计算机算法从数据模式中分析和推断,对算法进行分层,逐步从原始输入中提取更高级别的特征。在这项研究中,使用深度学习方法来学习蛋白质序列和可能结构的表示的迭代变换,这些变换非常迅速地收敛于非常准确的模型上。
作者开发的深度学习增强的从头蛋白质粘合剂设计协议包括机器学习软件工具AlphaFold 2和由蛋白质设计研究所开发的RoseTTA折叠。
该研究的合著者大卫·贝克是蛋白质设计研究所的主任,也是霍华德·休斯医学研究所的一名研究员,他获得了由美国国家科学基金会资助的德克萨斯高级计算中心(TACC) Frontera超级计算机的路径分配。
该研究问题非常适合在Frontera上并行化,因为蛋白质设计轨迹彼此独立,这意味着当计算作业运行时,信息不需要在设计轨迹之间传递。
“我们只是拆分了这个问题,其中有200万到600万个设计,并在Frontera的庞大计算资源上并行运行所有这些设计。它上面有大量的CPU节点。我们给每个cpu分配一个设计轨迹,这样我们就可以在可行的时间内完成大量的设计轨迹。”
作者使用RifDock对接程序生成了600万个蛋白质“对接”,或潜在结合的蛋白质结构之间的相互作用,将它们分成大约10万个块,并使用Linux实用程序将每个块分配给Frontera的8000多个计算节点之一。
这10万个码头中的每一个都将被分成100个工作,每个工作有1000个蛋白质。一千个蛋白质进入计算设计软件Rosetta,在那里,这一千个蛋白质首先以十分之一秒的尺度进行筛选,而那些存活下来的蛋白质则以几分钟的尺度进行筛选。
此外,作者使用蛋白质设计研究所开发的软件工具ProteinMPNN,进一步提高了生成蛋白质序列神经网络的计算效率,比以前最好的软件快200倍以上。
他们在建模中使用的数据是酵母表面显示结合数据,所有这些数据都是由蛋白质设计研究所公开收集的。在这个实验中,数万条不同的DNA链被命令编码一种不同的蛋白质,这是科学家们设计的。
然后将DNA与酵母结合,使每个酵母细胞在其表面表达一种设计好的蛋白质。然后将酵母细胞分为结合细胞和不结合细胞。反过来,他们使用人类基因组测序计划的工具来找出哪些DNA有效,哪些DNA无效。
考文垂表示,尽管研究结果表明,设计结构与目标蛋白质结合的成功率提高了10倍,但仍有很长的路要走。
“我们已经上升了一个数量级,但我们还有三个数量级要做。研究的未来是进一步提高成功率,并转向更困难的新目标,”他说。病毒和癌症的t细胞受体就是最好的例子。
改进计算设计的蛋白质的方法是使软件工具更加优化,或者取样更多。
考文垂说:“我们能找到的电脑越大,我们就能制造出越好的蛋白质。我们正在研发未来抗癌药物的工具。我们制造的许多单独的粘合剂可能会成为拯救人们生命的药物。我们正在努力使这些药物变得更好。
Improving de novo protein binder design with deep learning