EGCPPIS:基于层次等变图对比学习的蛋白质-蛋白质相互作用位点精准预测新方法
《BMC Bioinformatics》:EGCPPIS: learning hierarchical equivariant graph representations with contrastive integration for protein–protein interaction site identification
【字体:
大
中
小
】
时间:2025年11月25日
来源:BMC Bioinformatics 3.3
编辑推荐:
本研究针对现有蛋白质-蛋白质相互作用位点(PPIs)预测方法忽略蛋白质固有层次结构和空间等变特性的问题,开发了EGCPPIS深度学习框架。该方法通过构建残基级和原子级层次图表示,结合E(n)等变图神经网络(EGNN)和对比学习策略,在多个基准数据集上显著优于现有最优方法,为理解蛋白质功能和疾病机制提供了新工具。
蛋白质是生命活动的核心执行者,它们在细胞内通过复杂的相互作用网络调控着各种生物学过程。蛋白质-蛋白质相互作用(PPI)在细胞信号转导、代谢运输等关键生命活动中扮演着重要角色,因此准确识别蛋白质-蛋白质相互作用位点(PPIs)对于理解蛋白质功能、揭示疾病机制以及设计新型蛋白质药物具有重要意义。
传统上,科学家们主要通过酵母双杂交、亲和纯化-质谱等实验技术来鉴定PPIs,但这些方法往往成本高昂、周期漫长,且适用范围有限。随着计算生物学的发展,研究人员开始开发各种计算方法来预测PPIs,这些方法主要分为基于序列的方法和基于结构的方法两大类。
基于序列的方法主要利用氨基酸序列信息和进化特征,通过深度学习技术挖掘序列中的残基相互作用模式。例如DeepPPISP采用滑动窗口策略结合文本卷积神经网络(CNNs)来挖掘序列的局部和全局特征,DELPHI整合了CNN和RNN模块构建集成模型,而HN-PPISP则设计了多分支混合模块来学习序列特征。尽管这些方法在蛋白质结构信息缺失时表现出较好的通用性,但它们往往忽略了蛋白质的三维拓扑结构特征。
随着AlphaFold等蛋白质结构预测工具的出现,基于结构的PPIs预测方法迎来了新的发展机遇。这类方法利用图神经网络(GNNs)等深度学习技术,能够更好地捕捉蛋白质的三维空间特征。GraphPPIS应用初始残差和恒等映射策略构建深层GNN模型,AGAT-PPIS通过增强图注意力网络进行建模,而HSSPPI则生成原子图来辅助蛋白质结构表示。
然而,现有的计算方法仍面临诸多挑战。基于序列的方法无法有效利用蛋白质的空间结构信息,而基于结构的方法大多局限于残基级图建模,缺乏原子级的细粒度表征,同时忽略了不同层次特征之间的相互作用关系。更重要的是,传统GNN模型在消息传递过程中往往会丢失蛋白质的原始空间结构信息,而E(n)等变图神经网络(EGNN)能够在聚合节点信息的同时保持空间等变性,为蛋白质建模任务提供了新的解决方案。
为了解决这些挑战,桂林电子科技大学的研究团队在《BMC Bioinformatics》上发表了题为"EGCPPIS: learning hierarchical equivariant graph representations with contrastive integration for protein-protein interaction site identification"的研究论文,提出了一种新颖的深度学习框架EGCPPIS。
该研究采用的关键技术方法包括:首先基于蛋白质序列构建包含残基级图和原子级图的层次图表示;然后使用E(n)等变图神经网络(EGNN)模块学习具有等变特性的残基级节点嵌入,同时利用GraphSAGE模块提取原子级节点嵌入;接着通过图对比学习策略整合层次图特征,使残基级和原子级表示之间学习到一致的嵌入表示;最后采用改进的门控多头注意力机制对融合后的嵌入进行加权处理。研究使用的数据集来源于DeepPPISP和GraphPPIS任务中的公开数据,包括Train_335-1、Test_60、Test_315-28等多个测试集。
研究使用了两个来自先前PPIs预测任务的基准数据集,分别由DeepPPISP和GraphPPIS提出。数据集经过严格筛选,保证序列同一性小于20%,分辨率优于3?。最终使用的数据集包括Train_335-1、Test_60、Test_315-28和Ubtest_31-6,其中Ubtest_31-6包含未结合状态的蛋白质结构,用于评估构象变化对预测的影响。
每个蛋白质被表示为包含残基级图和原子级图的层次图结构。残基级图以残基为节点,基于16?的截断距离构建邻接矩阵,节点特征整合了氨基酸类型、PSSM(位置特异性评分矩阵)、HMM(隐马尔可夫模型)、ESM嵌入(蛋白质语言模型)、DSSP(二级结构轮廓)、resAF(残基原子特征)和伪位置嵌入等七类特征。原子级图以原子为节点,使用2.3?的原子截断距离,节点特征通过37种原子类型的独热编码构建。
研究采用E(n)等变图神经网络(EGNN)作为残基级特征提取模块,堆叠了4层等变图卷积层(EGCL)。EGCL在聚合节点特征的同时同步更新节点坐标空间,保持欧几里得变换中的E(3)等变性。坐标更新机制通过考虑节点i与所有其他节点的加权差异之和来实现,节点嵌入则通过聚合全局消息进行更新。
原子级特征提取模块基于GraphSAGE构建,同样堆叠了4层SAGEConv层。GraphSAGE通过采样和聚合局部邻域信息来更新节点嵌入,使用均值聚合器融合目标节点的邻域特征,然后通过非线性映射产生更新后的嵌入表示。
为了融合不同层次的节点嵌入,EGCPPIS采用基于GNN的对比学习策略。首先将残基级嵌入和原子级嵌入投影到统一的特征空间,然后通过构建正负样本对来优化嵌入表示。对比损失函数基于InfoNCE设计,同时考虑残基级和原子级的表示一致性。
研究构建了改进的门控多头注意力模块来重新加权从层次图中提取的残基嵌入。该模块将两个层次的节点嵌入合并后作为查询矩阵Q、键矩阵K和值矩阵V,通过多头注意力机制并行建模不同子空间,并引入门控机制动态调节节点嵌入输出。
研究使用准确率(ACC)、精确度、召回率、F1分数(F1)、马修斯相关系数(MCC)、受试者工作特征曲线下面积(AUC)和精确召回曲线下面积(AUPR)等七个标准指标评估模型性能。考虑到数据集的不平衡性,MCC和AUPR被视为核心评估指标。
3.2. 在两个PPIs预测任务上与最先进方法的比较
EGCPPIS在DeepPPISP和GraphPPIS两个预测任务上均表现出色。在Test70数据集上,EGCPPIS相比次优方法HSSPPI在MCC、AUC和AUPR上分别提升了21.8%、12.1%和24.8%。在Test_60数据集上,EGCPPIS在ACC、召回率、MCC、AUC和AUPR等指标上均取得最佳性能。
特别值得注意的是,EGCPPIS在包含未结合蛋白质结构的Ubtest_31-6数据集上也保持了强劲性能,表明该方法能够有效整合原子级嵌入并通过对比学习策略充分捕捉蛋白质链的构象变化信息。
通过设计仅使用序列特征(EGCPPIS_seq)和仅使用结构特征(EGCPPIS_struc)的消融变体,研究发现两种特征模态都对PPIs预测有重要贡献。与EGCPPIS_seq相比,完整EGCPPIS在AUC、AUPR和MCC上分别提升了4.2%、9.5%和8.9%;与EGCPPIS_struc相比,提升分别为4.3%、9.4%和11.8%。这表明序列和结构表征的互补性对实现优异的PPIs预测精度至关重要。
通过系统性的消融实验,研究评估了EGCPPIS中各模块的贡献。移除原子级编码器(w/o Atom)会轻微降低性能,确认原子级特征能有效辅助PPIs预测。替换EGNN模块(w/o EGNN)导致性能显著下降,核心指标降低超过3%,突显了EGNN在捕捉结构特征同时保持等变性的优势。移除对比学习模块(w/o CL)和门控多头注意力机制(w/o Attention)也分别导致性能下降,证明这些模块对提升分子表示能力和动态加权融合嵌入的必要性。
为了验证EGNN模块在提取残基级等变特征方面的优势,研究比较了多种先进GNN架构作为残基级图特征提取模块的替代方案。结果显示,基于EGNN的EGCPPIS性能最优,在关键指标AUPR和MCC上优于次优模型(GVP-GNN)超过4%。这一改进归因于EGNN能够动态更新节点坐标,从而更有效地编码三维结构信息。
研究从四个测试集中选取了代表性案例进行可视化比较,包括4fq0_B、3uvj_A、6kip_A和1t6e_X蛋白质。与HSSPPI相比,EGCPPIS显示出更突出的绿色区域(真阳性部分),而HSSPPI则表现出更大的红色区域(假阳性部分)。具体而言,对于4fq0_B、3uvj_A和6kip_A,EGCPPIS分别比HSSPPI正确识别了更多18、21和55个残基。虽然对于1t6e_X,EGCPPIS的总体正确预测数略少,但它识别出了27个真实结合残基,是HSSPPI预测数(11个残基)的两倍多,突显了EGCPPIS在精确定位真实结合位点方面的卓越能力。
EGCPPIS通过三个关键因素实现了PPIs预测的显著改进:首先,基于蛋白质链固有的三维层次构象构建层次图表示,充分提取结构信息;其次,利用EGNN作为骨干网络,在特征学习过程中保持空间等变性,从而在残基级图中提取具有等变感知特性的全局特征;第三,通过对比学习策略协同优化层次图中的一致特征,并使用改进的门控多头注意力机制对残基嵌入进行加权更新,提高表示质量。
该研究在多个基准数据集上的综合评估表明,EGCPPIS consistently优于现有最先进的基线方法。消融研究证实了各模块对模型效率的贡献,其中基于EGNN的残基编码器被确定为性能改进的核心驱动力。案例研究进一步证明了EGCPPIS在发现潜在PPI位点方面的优势。
尽管EGCPPIS表现出色,但仍有进一步改进的空间。当前研究主要关注伙伴蛋白无关的PPIs预测任务,未来考虑引入伙伴蛋白的特征表征有望进一步提高预测精度。此外,研究团队计划将EGCPPIS扩展到特定功能位点的精确识别,如抗体结合位点和酶活性位点,以支持更精细的生物学洞察。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号