基于多任务学习与自蒸馏策略的Pythia-PPI模型:突破蛋白质互作结合亲和力突变预测瓶颈

【字体: 时间:2025年06月11日 来源:National Science Review 16.3

编辑推荐:

  本研究针对蛋白质-蛋白质相互作用(PPI)结合亲和力突变预测数据匮乏的难题,中国科学技术大学与北京化工大学联合团队开发了Pythia-PPI模型。通过整合多任务学习与自蒸馏策略,该模型在SKEMPI数据集上将预测Pearson相关系数提升至0.7850,并成功预测出使CB6抗体与SARS-CoV-2 RBD结合亲和力翻倍的突变位点,为蛋白质工程和药物设计提供了高效工具。

  

蛋白质作为生命活动的主要执行者,其相互作用网络构成了细胞功能的分子基础。然而当氨基酸发生突变时,这些精密调控的蛋白质-蛋白质相互作用(PPI)可能被增强、削弱甚至完全破坏——这正是许多疾病发生的分子机制,也是蛋白质药物优化的关键靶点。传统实验方法如等温滴定量热法(ITC)和酵母双杂交系统虽然能测量结合亲和力变化(ΔΔG),但存在通量低、成本高的局限;而现有计算方法如Rosetta和FoldX等物理模型受限于采样效率和能量函数精度,机器学习方法则面临标注数据稀缺的困境。

针对这一交叉学科难题,中国科学技术大学与北京化工大学的研究团队在《National Science Review》发表了创新性解决方案。研究团队开发的Pythia-PPI模型通过三大技术创新实现了突破:首先利用预训练结构图编码器捕捉蛋白质局部结构特征;其次采用多任务学习框架同步预测蛋白质稳定性和PPI结合亲和力变化;最后通过自蒸馏策略将训练数据从4000条扩增至40万条。这种"预训练-多任务-自蒸馏"的三段式策略,使模型在保持每分钟超万次突变预测的高通量特性同时,将预测精度推升至新高度。

关键技术方法包括:基于k近邻图(k-NN)的蛋白质结构表征方法,使用32个最近邻氨基酸构建图网络;多任务学习框架整合SKEMPI(4076个PPI突变)和FireProtDB(3436个稳定性突变)数据集;自蒸馏策略通过模型自身预测扩展训练集;表面等离子共振(SPR)验证CB6抗体突变体的结合亲和力。

【Pythia-PPI架构】研究团队设计了两阶段模型架构:结构图编码器模块将蛋白质局部结构转化为包含氨基酸类型、主链二面角(φ, ψ, ω)等特征的图表示,通过注意力消息传递层(AMPL)生成隐藏嵌入;ΔΔG预测模块则包含affinity和stability两个预测头,共享编码器但针对不同任务优化。这种设计既保留了预训练模型对结构特征的捕捉能力,又通过任务特异性头部实现精准预测。

【监督微调显著提升预测精度】零样本迁移测试显示,预训练模型Pythia在SKEMPI数据集上Pearson相关系数仅0.3782。经过监督微调后,Pythia_FT将相关系数提升至0.6939,显著优于同类模型MIF_FT的0.6570。这一阶段验证了预训练模型通过微调可快速适应PPI预测任务。

【多任务学习增强结构泛化能力】引入蛋白质稳定性预测任务后,模型在结构层面的Pearson相关系数从0.4462提升至0.4778。特别值得注意的是,直接突变与反向突变的预测值呈现-0.95的强负相关,证明模型掌握了真实的物理规律而非简单记忆数据。这种跨任务的知识迁移使模型能更好地理解突变对蛋白质能量景观的整体影响。

【数据扩充大幅提升预测精度】通过自蒸馏生成的40万预测数据,使模型在SKEMPI数据集上的Pearson相关系数达到0.7850,超越现有最佳方法RDE-Net(0.6447)。t-SNE可视化显示,扩充后的数据在结构特征空间呈现更广的覆盖范围和更密集的分布,有效解决了原始数据分布不均的问题。模型对抗原-抗体相互作用的预测尤其精准,在588个突变数据上达到0.7649的Pearson相关系数。

【病毒蛋白与抗体亲和力的精准预测】在SARS-CoV-2 RBD与ACE2受体的深度突变扫描数据集(R3669)上,Pythia-PPI以0.6050的Pearson相关系数远超MSA Transformer(0.3654)等竞争对手。实验验证更令人振奋:模型预测的CB6抗体突变体S31R使与SARS-CoV-2 RBD的结合亲和力提高两倍,且前10位预测突变中有5个经SPR验证具有亲和力提升效果。

这项研究通过创新性地结合自监督学习、多任务学习和自蒸馏策略,建立了目前最精准的PPI突变效应预测系统。其重要意义体现在三个方面:方法论上证明了通过辅助任务和数据扩充可突破生物数据稀缺的瓶颈;技术上实现了每分钟超万次突变的高通量预测;应用上为抗体药物优化和病毒逃逸突变研究提供了可靠工具。研究团队开发的在线平台(https://pythiappi.wulab.xyz)已集成人类PPI数据库和ClinVar临床变异数据,将促进从基础研究到临床转化的全链条创新。未来通过整合全局注意力机制和构象动态信息,有望进一步拓展模型在多点突变和长程效应预测中的应用前景。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号