基于蛋白质语言模型微调的降糖肽智能预测工具BertADP的开发与应用

【字体: 时间:2025年07月16日 来源:BMC Biology 4.4

编辑推荐:

  糖尿病治疗亟需新型药物,传统计算方法依赖人工特征提取且泛化性差。电子科技大学等机构研究人员通过微调预训练蛋白质语言模型(PLMs),开发出首个基于ProtBert的降糖肽(ADPs)预测工具BertADP,在独立测试集准确率达0.955,尤其擅长短肽识别,为精准糖尿病管理提供创新解决方案。

  

糖尿病已成为全球增长最快的慢性代谢性疾病,国际糖尿病联盟数据显示,2021年全球患者达5.37亿,预计2045年将突破7.8亿。尽管胰岛素和二甲双胍等现有疗法广泛应用,但长期使用会导致低血糖和胃肠道紊乱等副作用。降糖肽(ADPs)因其高靶向性和低毒性成为研究热点,如GLP-1类似物利拉鲁肽能显著降低心血管风险。然而传统实验筛选方法耗时耗力,而现有计算工具如AntiDMPpred和ADP-Fuse依赖人工特征且无法预测短肽,严重制约高效发现新型ADPs。

电子科技大学临床医学院/生命科学与技术学院的研究团队在《BMC Biology》发表研究,首次将大规模预训练蛋白质语言模型(PLMs)微调技术应用于ADPs预测。通过整合899个非冗余ADPs和67个新候选肽构建最大数据集,团队开发出基于ProtBert微调的BertADP模型,在独立测试集实现准确率0.955、灵敏度1.000的特异性0.910,显著优于现有工具。该模型突破性地解决了短肽(长度<6 aa)预测难题,为抗糖尿病药物开发提供高效计算工具。

关键技术方法包括:1) 整合多源数据构建平衡数据集(899 ADPs/非ADPs);2) 采用ESM2、ProtT5、Ankh和ProtBert四种PLMs生成嵌入表示;3) 设计CNN-BiLSTM-Attention混合深度学习架构;4) 应用权重分解低秩适应(DoRA)微调策略;5) 通过t-SNE可视化验证特征判别力。

氨基酸组成与位置分析揭示ADPs特征

研究发现ADPs富含亮氨酸(Leu)和脯氨酸(Pro)等疏水残基(图2C),N/C末端以Leu为主导(图2J),而非ADPs偏好带电荷残基。MEME工具鉴定出GIVEQCCTSIC等4个保守基序(图2F-I),其中GIVEQCCTSIC与人胰岛素A链N端完全匹配,对结构稳定性至关重要。

PLMs微调性能评估

ProtBert微调模型(BertADP)表现最优,验证损失从第6轮开始上升但仍保持稳定准确率(图3C)。在独立测试集,BertADP的ACC达0.96,MCC为0.91,对67个ADPs实现100%识别(图3E)。

多嵌入深度学习框架比较

ProtT5嵌入模型表现最佳,ACC和AUC分别达0.94和0.99(图4E),但整体仍略逊于BertADP。

层次集成策略验证

尽管集成模型如Fine-tuning Ensemble达到与BertADP相近性能(ACC 0.96),但计算复杂度显著增加(图5A-B)。

基准测试显优势

在包含24个短肽(<6 aa)的134样本测试集中,BertADP全面超越ADP-Fuse等工具(图6D),对短肽保持100%准确率(图6E)。t-SNE可视化证实ProtBert能有效区分ADPs/非ADPs特征分布(图6F-H)。

该研究开创性地将PLMs微调技术应用于降糖肽预测,解决了传统方法在短肽识别上的局限性。BertADP不仅加速了ADPs发现进程,其提出的技术框架还可推广至其他生物活性肽研究领域。值得注意的是,模型对胰岛素相关基序的精准识别(如GIVEQCCTSIC)为理性设计降糖肽提供了结构基础。未来随着更多高质量ADPs数据的积累,该工具有望进一步优化,并为开发T1D/T2D特异性治疗肽奠定基础。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号