
-
生物通官微
陪你抓住生命科技
跳动的脉搏
语言模型编码多尺度特征融合与转换预测蛋白质-肽结合位点
【字体: 大 中 小 】 时间:2025年09月25日 来源:Pattern Recognition 7.6
编辑推荐:
本文提出LMFFT模型,创新性地利用单一蛋白质语言模型(PLM)进行多尺度特征提取(残基、二肽及片段级),结合RoFormer和Transformer实现特征融合,并采用多尺度卷积神经网络(CNN)捕获局部与全局特征交互,在三个基准数据集上实现最先进的PPBS预测性能,为揭示蛋白质序列-功能关系提供了高效解决方案。
亮点
基准数据集
为评估模型有效性,我们主要在两个广泛应用的数据集上开展实验,包含总计1241和1279个蛋白质,分别命名为数据集1和数据集2。这两个数据集的蛋白质序列最初由Taherzadeh等人从蛋白质-配体数据库BioLip中收集。此外,我们引入另一个基准数据集3,包含总共2920个蛋白质,由Huang等人收集。
与现有基线的性能比较
为全面评估所提出的LMFFT模型的预测性能,我们进行了与11种现有先进方法的比较分析,涉及PPBS预测。这些基线包括PeptiMap、SPRINT-Str、SPRINT-Seq、PepBind、PepNN-Seq、PepNN-Struct、Visual、PepBCL、SPPPred、PepCNN和PepCA。值得注意的是,这11种方法中,三种预测器(PeptiMap、SPRINT-Str和PepNN-Struct)基于结构,而其余八种基于序列。
结论与未来方向
本工作中,我们开发了LMFFT模型,一种端到端的识别蛋白质-肽结合位点的方法,仅依赖于具有多尺度特征融合与转换的语言模型。这实现了最先进的性能,同时有效避免了传统方法中常见的耗时且昂贵的陷阱,这些方法需要复杂的特征工程。我们的模型充分利用了蛋白质语言模型,结合了二肽特征编码和...
生物通微信公众号
知名企业招聘