基于贝叶斯流网络的蛋白质序列建模:解锁未探索蛋白质空间的新范式

《Nature Communications》:

【字体: 时间:2025年04月04日 来源:Nature Communications

编辑推荐:

  编辑推荐:本研究针对现有生成模型难以兼顾无条件与条件生成的问题,开发了基于贝叶斯流网络(BFNs)的ProtBFN模型。该650M参数模型在UniProtCC数据集训练后,生成的蛋白质序列在自然性、多样性和结构新颖性上超越自回归和离散扩散模型,其抗体专用版本AbBFN在零样本条件下框架区预测准确率达95.6%,为理性蛋白质设计提供了统一框架。

  蛋白质是生命活动的执行者,但人类仅探索了理论蛋白质序列空间的极小部分。传统蛋白质生成模型如ProtGPT2(自回归)和EvoDiff(离散扩散)存在明显局限:前者受限于单向生成难以捕捉长程相互作用,后者难以处理离散序列数据。更关键的是,现有方法无法同时实现高质量的无条件生成和灵活的条件生成,这严重制约了蛋白质工程的应用潜力。

DeepMind研究所的研究团队提出用贝叶斯流网络(Bayesian Flow Networks, BFNs)这一新兴生成框架突破上述瓶颈。BFNs通过建模数据分布的连续参数(而非直接建模数据),天然支持离散变量处理,其"学习数据信念"的机制比传统方法更适应蛋白质序列的复杂特性。研究团队构建了650M参数的ProtBFN模型,在严格筛选的UniProtCC数据集(含7100万高置信度序列)训练后,生成的蛋白质不仅氨基酸频率、二聚体倾向等指标与自然分布高度吻合,其结构新颖性(80.4%的CATH匹配序列相似性<50%)和覆盖度(69.7%命中UniRef50簇)均显著优于基线模型。通过微调获得的AbBFN模型,在抗体重链生成任务中展现出惊人的零样本条件生成能力:仅通过1000步微调即在SAbDab基准测试中实现CDR-H1/H2预测准确率77.1%/72.6%,框架区联合预测准确率高达95.6%,超越专用BERT类模型。该成果发表于《Nature Communications》。

关键技术包括:1)基于UniProtKBOAS数据库构建高质量训练集;2)开发重构ODE采样算法(R-ODE)提升序列质量;3)结合序列熵编码优化网络输入;4)使用1024粒子的序贯蒙特卡洛(SMC)方法实现条件生成;5)通过TM-score和SSAP评分系统评估结构相似性。

主要研究结果:

  1. 蛋白质序列建模的贝叶斯流网络
    开发了基于通信协议的训练框架:发送者(Alice)通过逐步发送含噪观测描述真实序列,接收者(Bob)通过神经网络预测下一观测分布。采用连续时间损失函数L,通过熵编码替代传统时间编码解决采样偏移问题。

  2. ProtBFN:蛋白质序列的基础生成模型
    生成序列的氨基酸频率误差<0.5%,pLDDT结构置信度评分与天然蛋白相当(均值74.2)。覆盖度评分0.544(ProtGPT2仅0.095),65.7%的生成序列匹配CATH结构域(SSAP>80占68%),且26.9%为多结构域蛋白。

  3. AbBFN:抗体特异性序列模型
    在OAS数据微调后,无条件生成的重链序列FR区氨基酸恢复率96.9%(CDR-H3为43.1%)。零样本条件下,FR联合预测准确率比AntiBERTy提高15.7个百分点,证明BFNs的条件生成灵活性。

研究结论表明,BFNs首次统一了蛋白质的无条件与条件生成,其"参数化分布"的建模方式比传统方法更适应离散序列数据特性。ProtBFN生成的蛋白质不仅覆盖已知功能空间,还能探索低相似度的新颖结构(TM-score>0.5但序列相似性<50%占80.4%)。AbBFN的零样本性能突破证明该框架可快速适配特定蛋白家族,其SMC采样策略为复杂条件生成任务提供了新思路。未来BFNs有望扩展至RNA设计或多模态生物分子建模,而与其他扩散采样方法的理论联系(如通过随机微分方程)可能带来更强大的生成能力。

涓嬭浇瀹夋嵎浼︾數瀛愪功銆婇€氳繃缁嗚優浠h阿鎻ず鏂扮殑鑽墿闈剁偣銆嬫帰绱㈠浣曢€氳繃浠h阿鍒嗘瀽淇冭繘鎮ㄧ殑鑽墿鍙戠幇鐮旂┒

10x Genomics鏂板搧Visium HD 寮€鍚崟缁嗚優鍒嗚鲸鐜囩殑鍏ㄨ浆褰曠粍绌洪棿鍒嗘瀽锛�

娆㈣繋涓嬭浇Twist銆婁笉鏂彉鍖栫殑CRISPR绛涢€夋牸灞€銆嬬數瀛愪功

鍗曠粏鑳炴祴搴忓叆闂ㄥぇ璁插爞 - 娣卞叆浜嗚В浠庣涓€涓崟缁嗚優瀹為獙璁捐鍒版暟鎹川鎺т笌鍙鍖栬В鏋�

涓嬭浇銆婄粏鑳炲唴铔嬬櫧璐ㄤ簰浣滃垎鏋愭柟娉曠數瀛愪功銆�

相关新闻
    生物通微信公众号
    微信
    新浪微博

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号