语言模型编码多尺度特征融合与转换预测蛋白质-肽结合位点

【字体: 时间:2025年09月25日 来源:Pattern Recognition 7.6

编辑推荐:

  本文提出LMFFT模型,创新性地利用单一蛋白质语言模型(PLM)进行多尺度特征提取(残基、二肽及片段级),结合RoFormer和Transformer实现特征融合,并采用多尺度卷积神经网络(CNN)捕获局部与全局特征交互,在三个基准数据集上实现最先进的PPBS预测性能,为揭示蛋白质序列-功能关系提供了高效解决方案。

  

亮点

  • (1)
    我们创新性地提出基于二肽嵌入的片段表征方法,整合了残基级、二肽级和片段级的多尺度特征融合。这种融合策略旨在有效克服单一使用蛋白质语言模型(PLM)编码的残基级表征的局限性。
  • (2)
    为充分编码PLM特征,我们进一步设计使用卷积神经网络(CNN)的多尺度特征转换层,包括多尺度卷积残差模块和基于卷积的个性化线性转换模块。该层促进了局部与全局特征间的交互,最终产生更有效的特征表征。
  • (3)
    我们首次将RoFormer应用于蛋白质-肽结合位点(PPBS)预测,并通过从单一PLM提取多尺度特征开发了一种新颖的基于序列的端到端预测器,有效避免了传统方法中通常耗时而昂贵的特征工程。
  • (4)
    我们的模型LMFFT在三个PPBS数据集上设立了新的最先进(SOTA)基准,超越了以往的序列方法,并展现出与某些基于结构的基线方法相比的竞争优势。

基准数据集

为评估模型有效性,我们主要在两个广泛应用的数据集上开展实验,包含总计1241和1279个蛋白质,分别命名为数据集1数据集2。这两个数据集的蛋白质序列最初由Taherzadeh等人从蛋白质-配体数据库BioLip中收集。此外,我们引入另一个基准数据集3,包含总共2920个蛋白质,由Huang等人收集。

与现有基线的性能比较

为全面评估所提出的LMFFT模型的预测性能,我们进行了与11种现有先进方法的比较分析,涉及PPBS预测。这些基线包括PeptiMap、SPRINT-Str、SPRINT-Seq、PepBind、PepNN-Seq、PepNN-Struct、Visual、PepBCL、SPPPred、PepCNN和PepCA。值得注意的是,这11种方法中,三种预测器(PeptiMap、SPRINT-Str和PepNN-Struct)基于结构,而其余八种基于序列。

结论与未来方向

本工作中,我们开发了LMFFT模型,一种端到端的识别蛋白质-肽结合位点的方法,仅依赖于具有多尺度特征融合与转换的语言模型。这实现了最先进的性能,同时有效避免了传统方法中常见的耗时且昂贵的陷阱,这些方法需要复杂的特征工程。我们的模型充分利用了蛋白质语言模型,结合了二肽特征编码和...

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号