PepHarmony:基于多视角对比学习的肽序列与结构融合表征框架及其在药物发现中的应用

【字体: 时间:2025年09月25日 来源:Neural Networks 6.3

编辑推荐:

  本综述提出PepHarmony多视角对比学习框架,创新性地将肽的序列(sequence)与结构(structure)信息通过对比学习(contrastive learning)整合到序列编码模块,解决了传统模型难以捕捉肽柔性结构的难题。该框架利用Protein Data Bank(PDB)和AlphaFold DB数据,显著提升了下游任务(如细胞穿透能力预测、肽-蛋白相互作用预测)的准确性,为肽药物发现(peptide drug discovery)和肽工程(peptide engineering)提供了强有力的计算工具。

  

Highlight

肽序列与结构间的内在关联对其功能理解和应用潜力至关重要(Fjell et al., 2011; Owji et al., 2018)。有效的肽表征是推动药物发现和肽工程计算模型发展的基础,但仍面临挑战。传统方法往往孤立处理序列或结构(Z. Chen et al., 2018; Wei et al., 2023),未能全面捕捉二者间复杂相互作用。

近年来,一些研究开始探索肽特异性建模框架。例如,Du等人提出了UniDL4BioPep(Du, Ding, Xu, & Li, 2023),一种用于肽生物活性分类的通用架构,展示了统一框架在不同肽任务中的潜力。在一篇相关综述中,Du、Comer和Li强调了发现食物源生物活性肽的独特挑战,并强调了专门计算方法的重要性(Du, Comer, & Li, 2023)。这些研究凸显了对肽模态定制模型的日益增长的需求。

近年来,蛋白质结构数据库如蛋白质数据库(PDB)(Berman et al., 2002; S. K. Burley et al., 2019)和变革性的AlphaFold DB(Jumper et al., 2021; M. Varadi et al., 2022)的出现提供了前所未有的丰富结构数据,为肽研究开辟了新途径。这些发展连同蛋白质预训练模型(Brandes, Ofer, Peleg, Rappoport, & Linial, 2022; Rives et al., 2021)共同为肽表征的创新方法奠定了基础。

本研究介绍了一种新颖的肽预训练模型PepHarmony,它能有效整合肽序列和结构信息。PepHarmony采用对比学习在预训练步骤中将结构和序列信息融合到其表征模块中,并在下游推理任务中 exclusively 使用序列编码器。这一独特策略确保从序列中提取的特征 inherently 包含结构信息,从而增强了模型在肽相关预测任务中的表征能力。肽序列和结构数据详尽收集自AlphaFold和PDB数据库。我们全面研究了数据分布、数据质量和不同训练策略如何影响PepHarmony。实验结果证明了PepHarmony在各种任务中的有效性,包括细胞穿透能力预测和肽-蛋白质相互作用预测。

本研究的主要贡献可总结如下:

• 1. PepHarmony是一个为肽模态定制的预训练模型,能够捕捉肽复杂的结构和功能特征。

• 2. 我们阐明了结构数据的质量和数量差异,以及肽和蛋白质之间定制的训练方法,如何 distinctively 影响肽预训练模型的效果。

• 3. 广泛的消融和对比实验证明了预训练PepHarmony模型在多个肽相关预测任务中的 superior 性能。

Related work

蛋白质和肽的序列与结构之间错综复杂的相互作用涉及许多生物过程,并受到湿实验室和计算生物学家的积极研究(Whisstock & Lesk, 2003)。最近的各种进展已被提出用于不同蛋白质分析任务的计算研究。本节回顾三个主要领域的相关文献:基于序列的语言模型、基于结构的预训练模型,以及肽特异性建模方法。

Methodology

我们首先介绍框架的概述,然后分别介绍用于序列和结构表征学习的各个模块。最后,我们介绍所提出的PepHarmony框架如何协调这两个学习任务。

Dataset Acquisition

本研究采用各种数据集来预训练和评估提出的PepHarmony模型。PDB数据集源自蛋白质数据库(PDB)(Stephen K Burley et al., 2017),是一个公开可访问的数据库,提供生物大分子(如蛋白质、核酸和复杂组装体)的三维(3D)结构。在本研究中,我们从PDB数据库中提取所有蛋白质链,并将长度低于50的归类为肽。这总计...

Conclusions and future work

这项工作介绍了PepHarmony,一个新颖的预训练框架,用于将3D结构信息整合到序列级肽表征中。序列编码器通过多视角对比学习框架PepHarmony丰富了结构信息,并成功捕获了序列嵌入特征和3D结构模式,用于在各种下游预测任务中对肽进行功能表征。

全面的实验数据...

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号