-
生物通官微
陪你抓住生命科技
跳动的脉搏
麻省理工学院发布了一个强大的开源人工智能模型:Boltz-1
【字体: 大 中 小 】 时间:2024年12月19日 来源:AAAS
编辑推荐:
麻省理工学院Jameel健康机器学习诊所的研究人员开发了一个完全开源的生物分子结构预测模型,该模型在AlpahFold3水平上实现了最先进的性能,旨在使生物医学研究和药物开发民主化。
麻省理工学院的科学家们发布了一个强大的开源人工智能模型,名为Boltz-1,它可以显著加快生物医学研究和药物开发。
Boltz-1由麻省理工学院Jameel健康机器学习诊所的一组研究人员开发,是第一个完全开源的模型,达到了AlphaFold3水平的最先进性能,AlphaFold3是谷歌DeepMind的模型,用于预测蛋白质和其他生物分子的3D结构。
麻省理工学院的研究生Jeremy Wohlwend和Gabriele Corso是Boltz-1的主要开发者,还有麻省理工学院Jameel诊所研究附属机构Saro Passaro和麻省理工学院电子工程和计算机科学教授Regina Barzilay和Tommi Jaakkola。Wohlwend和Corso在12月5日麻省理工学院Stata中心的活动上展示了这个模型,他们说他们的最终目标是促进全球合作,加速发现,并为推进生物分子建模提供一个强大的平台。
“我们希望这是社区的一个起点,”Corso说。“我们称它为Boltz-1而不是Boltz是有原因的。这不是终点。我们希望从社区得到尽可能多的贡献。”
蛋白质在几乎所有的生物过程中起着至关重要的作用。蛋白质的形状与其功能密切相关,因此了解蛋白质的结构对于设计新药或设计具有特定功能的新蛋白质至关重要。但是,由于蛋白质的长链氨基酸折叠成三维结构的过程极其复杂,几十年来,准确预测这种结构一直是一个重大挑战。
DeepMind的AlphaFold2为Demis Hassabis和John Jumper赢得了2024年诺贝尔化学奖,它使用机器学习来快速预测3D蛋白质结构,这种结构非常准确,与科学家实验得出的结果没有区别。这种开源模型已经被世界各地的学术和商业研究团队所使用,促进了药物开发的许多进步。
AlphaFold3通过整合生成式人工智能模型(称为扩散模型)来改进其前身,该模型可以更好地处理预测极其复杂的蛋白质结构所涉及的不确定性。然而,与AlphaFold2不同的是,AlphaFold3不是完全开源的,也不能用于商业用途,这引发了科学界的批评,并引发了一场构建该模型商业版本的全球竞赛。
对于Boltz-1的研究,麻省理工学院的研究人员采用了与AlphaFold3相同的初始方法,但在研究了潜在的扩散模型之后,他们探索了潜在的改进。他们结合了那些最能提高模型准确性的方法,比如提高预测效率的新算法。
除了模型本身,他们还开放了整个训练和微调管道,以便其他科学家可以在Boltz-1的基础上进行研究。
“我为Jeremy、Gabriele、Saro和Jameel诊所团队的其他成员感到非常自豪,他们让这个版本得以发布。这个项目花了许多个日日夜夜的工作,坚定不移的决心达到了这一点。对于进一步改进,我们有许多令人兴奋的想法,我们期待着在未来几个月与大家分享。”Barzilay说。
麻省理工学院的团队花了四个月的时间,进行了许多实验,才开发出Boltz-1。他们面临的最大挑战之一是克服蛋白质数据库中包含的模糊性和异质性。蛋白质数据库是过去70年来成千上万的生物学家已经解决的所有生物分子结构的集合。
“我花了很多个漫长的夜晚来研究这些数据。其中很多都是纯领域知识,需要学习。没有捷径,”Wohlwend说。
最后,他们的实验表明,Boltz-1在各种复杂的生物分子结构预测上达到了与AlphaFold3相同的精度水平。
“杰里米、加布里埃尔和萨罗所取得的成就是非凡的。他们在这个项目上的辛勤工作和坚持使生物分子结构预测更容易被更广泛的社区所接受,并将彻底改变分子科学的进步,”Jaakkola说。
研究人员计划继续改进Boltz-1的性能,并减少进行预测所需的时间。他们还邀请研究人员在他们的GitHub存储库上试用Boltz-1,并在他们的Slack频道上与Boltz-1的其他用户联系。
“我们认为改进这些模型还有很多很多年的工作要做。我们非常渴望与他人合作,看看社区如何使用这个工具,”Wohlwend补充道。
知名企业招聘