BridgeNet:融合序列与结构信息的高效蛋白质功能预测新框架
《Briefings in Bioinformatics》:BridgeNet: a high-efficiency framework integrating sequence and structure for protein and enzyme function prediction
【字体:
大
中
小
】
时间:2025年11月20日
来源:Briefings in Bioinformatics 7.7
编辑推荐:
本研究针对蛋白质序列与结构信息割裂的瓶颈问题,提出了BridgeNet预训练深度学习框架。该框架通过创新的潜在环境矩阵无缝整合双模态信息,在酶分类(EC)、基因本体(GO)注释、辅酶特异性预测和肽毒性预测等任务中均超越现有最优模型。该研究为计算生物学提供了兼具卓越性能与计算效率的解决方案,显著推进了蛋白质表征学习领域的发展。
蛋白质作为生命活动的主要执行者,其功能预测一直是生物信息学领域的核心挑战。传统实验方法如X射线晶体学和冷冻电镜虽能精确解析结构,但耗时耗力且难以规模化。尽管AlphaFold等算法在结构预测领域取得突破,ESM等序列模型在功能注释方面表现卓越,现有方法大多孤立处理序列或结构信息,未能充分捕捉二者之间的内在关联。这种模态割裂限制了模型对蛋白质环境适应性(如pH、温度变化)的理解,尤其对固有无序蛋白等复杂体系的分析能力不足。
发表于《Briefings in Bioinformatics》的BridgeNet研究,通过创新性地引入潜在环境矩阵概念,构建了能够双向映射序列与结构信息的深度学习框架。该模型包含三个核心模块:采用Transformer架构的序列编码模块负责提取序列特征;基于图卷积网络(GCN)的结构编码模块处理蛋白质三维结构;桥接模块则通过线性变换实现双模态表征的对齐。特别值得注意的是,模型预训练阶段利用UniRef50数据库中6300万条蛋白质序列及其对应结构信息,但下游预测时仅需序列输入即可获得结构增强的表征,显著提升了实用价值。
关键技术方法包括:基于BLOSUM-62矩阵的序列嵌入策略,以5?距离阈值构建蛋白质结构图,Transformer编码器-解码器架构的序列表征模块,图卷积网络的结构表征模块,以及通过潜在环境矩阵实现序列-结构对齐的桥接机制。研究采用7:1:2的数据划分策略,在酶功能预测、辅酶分类和肽毒性预测等任务上进行了系统验证。
BridgeNet在EC编号预测中达到86.6%的Fmax值,较次优模型提升4.6%;酶反应分类准确率达89.3%。在GO注释任务中,MF(分子功能)子类表现最佳(Fmax=66.7%)。t-SNE可视化显示序列与结构表征在潜在空间高度重叠,证实了双模态融合的有效性。
在NAD+/NADP+特异性预测任务中,模型AUC值达0.989,召回率0.963。虽然准确率(0.970)略低于SABLE模型(0.973),但计算效率显著提升,内存占用和推理时间远低于INSIGHT-ESM2等复杂模型。
BridgeNet的F1-score(92.9%)和MCC(90.0%)均显著优于ToxIBTL(83.0%)和tAMPer(86.0%)等先进方法,auPRC值达96.6%,展现了卓越的毒性识别能力。
对比实验表明,完整模型性能始终优于仅使用序列或结构信息的简化版本,验证了双模态融合设计的必要性。桥接损失函数在训练过程中持续下降,说明序列-结构对齐效果逐步增强。
该研究通过引入环境矩阵概念,巧妙解决了蛋白质构象多样性带来的建模挑战。BridgeNet的创新性不仅体现在性能提升,更在于其开创了"预训练时融合结构先验,推理时仅需序列输入"的新范式。这种设计使模型能够适应动态生物环境(如翻译后修饰、分子伴侣作用),为研究固有无序蛋白等复杂体系提供了新思路。未来可进一步整合蛋白质互作、进化信息等多源数据,拓展在抗体设计、酶工程等领域的应用。该框架的模块化设计也为后续研究提供了可扩展的基准平台。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号