基于循环神经网络预测蛋白质赖氨酸糖基化修饰:理化特性与微环境影响解析

【字体: 时间:2025年09月17日 来源:BioMed Research International 2.3

编辑推荐:

  本综述系统探讨了利用循环神经网络(RNN)预测蛋白质赖氨酸糖基化(Glycation)的创新方法。研究通过分析八种氨基酸理化特性(如等电点IEP、质量、扭转角ToA等),揭示了微环境对糖化位点的影响,为糖尿病、衰老等相关疾病中晚期糖基化终末产物(AGEs)的形成机制提供了新的计算生物学视角。

  

引言:蛋白质糖基化修饰的复杂景观

蛋白质由20种标准氨基酸及少数特殊氨基酸(如硒半胱氨酸和吡咯赖氨酸)构成,其序列多样性及翻译后修饰(PTM)为细胞功能调控提供了多层机制。糖基化(Glycation)区别于酶促糖基化(Glycosylation),是一种非酶促过程,涉及糖类(如葡萄糖、果糖)及其衍生物(如甲基乙二醛MGO)与生物分子(如核酸、脂质、蛋白质)的氨基反应。晚期糖基化终末产物(AGEs)的形成通常对靶分子功能产生不可逆损害。赖氨酸和精氨酸是蛋白质中AGE形成的主要靶点,尤其是高反应性化合物MGO,其在糖尿病、动脉粥样硬化、神经退行性疾病和癌症等病理状态下累积,挑战细胞存活。

尽管大量研究关注MGO与特定氨基酸的结合,但尚未发现明确的共识序列来可靠预测潜在糖基化位点。近年来的研究表明,氨基酸微环境(如侧翼氨基酸的理化特性)在决定糖化是否发生中起关键作用。本研究利用CPLM 4.0数据库的精选版本,通过循环神经网络(RNN)策略对赖氨酸糖基化进行分类,以探究八种理化特性中哪些对糖化影响更大。

材料与方法:实验设计与RNN架构

研究采用CPLM数据库及其衍生的智人蛋白质序列数据集,通过CD-HIT去除冗余(30%截断值),获得6830条肽段,每条包含31个氨基酸且中心为赖氨酸残基(标记为糖化或非糖化)。数据集分为训练集(4830条)、验证集(1000条)和测试集(1000条),并进行10折交叉验证。

氨基酸的符号表示被替换为八种理化特性的数值:序列结构(SoA)、亲水性(Hyd)、质量、疏水性(Hyp)、极化性(Pol)、范德华体积(vdW)、扭转角(ToA)和等电点(IEP)。每个肽段生成八组31维数值向量,输入RNN模型。RNN采用长短期记忆(LSTM)架构,包含输入层、隐藏层(64和32个LSTM单元,带Dropout层)和输出层(2个神经元,表示糖化概率)。训练使用稀疏分类交叉熵损失函数和ADAM优化器,通过早停算法防止过拟合。

研究定义了三种案例进行分析:

  • 案例1:单独测试每种理化特性(输入矩阵31×2);

  • 案例2:组合两种特性(共28种组合,输入31×2);

  • 案例3:整合所有八种特性(输入31×8)。

    性能通过准确率(Acc)、精确率(Pre)、灵敏度(Sen)、特异性(Spe)、马修斯相关系数(MCC)和ROC曲线评估。

结果:理化特性对糖化预测的影响

案例1中,等电点(IEP)表现出最佳性能,准确率达59.6%,精确率58.4%,特异性55.3%。质量特性在MCC上最高(0.196),而扭转角(ToA)的灵敏度达83.5%。序列结构(SoA)和疏水性(Hyp)组合准确率最低(57.6%),表明某些特性单独作用有限。

案例2中,质量与扭转角组合(Mass + ToA)准确率最高(59.9%),精确率58.3%。等电点、序列结构和疏水性在多个组合中表现突出,但整体提升幅度较小(约0.3%),提示双特性组合虽略优,但未显著超越最佳单特性。

案例3使用全部八种特性,准确率略降至59.4%,其他指标与案例1和2相近。这表明增加特性数量并未显著提升性能,反而增加计算复杂度。ROC曲线分析显示,IEP及Mass + ToA组合的AUC值均高于随机分类,证实模型的有效性。

讨论:微环境特性与糖化机制

本研究通过RNN框架揭示了氨基酸微环境的理化特性在赖氨酸糖化中的关键作用。等电点(IEP)和质量被确定为最影响糖化的特性,可能与电荷分布和分子空间构象相关。这与精氨酸糖化研究(如Sjoblom等人工作)形成对比,后者中IEP作用较弱,说明糖化机制因靶氨基酸而异。

与其他机器学习方法(如Glypre、PredGly、BERT-Kgly)相比,本研究未采用特征提取算法(如氨基酸组成或K近邻),而是直接利用理化数值,避免了潜在偏差。然而,数据库局限性(如MS检测覆盖不全、膜蛋白低代表性)及生物样本偏差(以人类和小鼠为主)可能影响模型泛化能力。此外,糖化非二元过程,受MGO浓度、半衰期和局部结构影响,当前模型未涵盖这些动态因素。

结论与展望

本研究证实了循环神经网络在预测赖氨酸糖化位点中的实用性,并强调氨基酸微环境理化特性(尤其是IEP和质量)的核心角色。尽管准确率约60%,模型为缩小实验验证靶点提供了计算工具。未来需整合定量糖化数据(如修饰百分比)和结构背景参数,以提升预测可靠性。跨实验室标准化检测方法将是推动该领域发展的关键。

伦理与利益冲突

作者声明无利益冲突。本研究预印本已提前发布,所有作者阅读并同意稿件内容。

资助与贡献

本研究得到墨西哥国家科学技术理事会(CONAHCyT)支持(项目编号I1200/224/2021)。贡献包括:概念设计(U.Q.-S., D.M.-P., C.Q.S.)、形式分析(U.Q.-S., D.M.-P.)、调查(多作者共同完成)、项目管理(A.D.R.-F., C.Q.S.)、监督(C.Q.S.)及稿件撰写与编辑(全体作者)。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号