JSSM-DTA:结合多尺度变换器的联合序列-结构建模,用于实现可解释的药物-靶点亲和力预测

《Engineering Applications of Artificial Intelligence》:JSSM-DTA: Joint Sequence-Structure Modeling with multi-scale transformers for explainable Drug-Target Affinity prediction

【字体: 时间:2025年09月19日 来源:Engineering Applications of Artificial Intelligence 8

编辑推荐:

  药物-靶点亲和力预测中结合序列与结构的多模态深度学习框架JSSM-DTA通过自适应卷积与多尺度扩散Transformer提升建模精度与可解释性,在Davis、KIBA、Metz和BindingDB数据集上实现最优性能。

  在药物发现领域,预测药物与靶点之间的亲和力(Drug-Target Affinity, DTA)是一项至关重要的任务。这一过程旨在量化药物分子与生物靶点(如蛋白质)之间相互作用的强度,从而为药物研发提供理论支持和实践指导。随着深度学习技术的快速发展,DTA预测方法取得了显著进展,但仍面临诸多挑战。其中,分子结构与序列信息之间的不匹配导致了功能基团特异性表示的缺失,进而影响了特征提取的精度和关键相互作用模式的识别。此外,现有模型在利用分子图结构时往往存在局限,难以准确捕捉分子之间的层次化依赖关系,而特征融合机制的不足则阻碍了异质分子表示的整合,限制了对复杂药物-靶点相互作用动态的理解。

为了解决这些问题,本文提出了一种名为JSSM-DTA的新颖联合序列-结构建模框架。该框架通过引入多尺度Transformer与跨模态特征注意力机制,提升了DTA预测的性能。JSSM-DTA构建了一个统一的表示空间,其中Adaptive Convolutional Transformer(ACT)用于提取序列特征,能够捕捉分子内部的复杂局部依赖关系和长距离上下文关联。同时,Multi-Scale Diffusion Transformer(MSDT)则专注于结构层面的学习,优化了分子整体拓扑组织与微小分子间交互的结合。这种双通道的设计使得模型能够在不同尺度上全面地建模分子的结构与功能特性。

为了进一步提升模型的表达能力,JSSM-DTA引入了Factorized Inter-layer Interaction Module(FII Module),该模块通过无缝整合异质分子表示,实现了高效的跨模态特征交换。这种机制不仅增强了模型对药物-靶点相互作用的建模能力,还提升了特征学习的效率。通过FII Module,模型能够更准确地识别关键的分子子结构和结合位点,从而提高预测结果的可解释性。最终,JSSM-DTA在Davis、KIBA、Metz和BindingDB等多个基准数据集上进行了评估,结果显示其预测精度优于当前最先进的方法。此外,通过可视化技术,模型能够突出关键的药物子结构和结合残基,确保了预测过程的透明度和可解释性。

药物发现是一个复杂且昂贵的过程,通常需要大量的资金和时间投入。传统方法如高通量筛选(HTS)、亲和层析、酵母双杂交实验和表面等离子共振(SPR)等虽然在早期研究中发挥重要作用,但其资源消耗较高,难以适应大规模数据处理的需求。因此,近年来,越来越多的研究转向计算方法,以提高药物发现的效率并降低成本。计算方法包括分子对接、定量构效关系(QSAR)建模以及基于机器学习的回归和分类方法。然而,这些方法在实际应用中也存在局限性。例如,分子对接计算成本高昂且对参数选择高度敏感,而QSAR模型依赖于人工设计的分子描述符,难以捕捉复杂的结合行为。

基于机器学习的DTA预测方法,如支持向量机(SVM)、随机森林(RF)和梯度提升树(GBT),在一定程度上提高了预测精度。然而,这些模型通常依赖于人工提取的分子和蛋白质特征,限制了其在不同化学和生物背景下的泛化能力。相比之下,深度学习方法通过端到端的表示学习,能够从原始数据中自动提取特征,提升了模型的表达能力和泛化能力。在深度学习模型中,药物通常以简化分子输入线路入口系统(SMILES)字符串的形式表示,而蛋白质则以氨基酸序列进行编码。这些序列信息被用于捕捉分子间的依赖关系,从而提高预测性能。

尽管深度学习方法在DTA预测中取得了显著成果,但其仍然存在一定的局限性。例如,基于序列的模型难以捕捉分子的空间构象和原子层面的相互作用,而基于图的模型虽然能够提供更丰富的结构信息,但往往只关注单一模态的表示,忽略了序列与结构之间的多尺度整合。此外,虽然Transformer模型通过注意力机制提高了预测精度,但其在识别关键分子子结构方面仍存在不足,限制了对药物与靶点结合区域的准确建模。

为了克服这些挑战,JSSM-DTA框架通过联合建模序列与结构信息,提供了一种更全面的解决方案。该框架的核心思想是通过多尺度扩散机制和跨模态注意力机制,将药物和蛋白质的序列与图结构信息进行有效整合。在药物-靶点相互作用中,序列信息编码了分子的化学组成和功能基团,而图结构信息则提供了分子的空间构型和相互作用环境。这些信息的互补性使得联合建模成为准确捕捉分子结合亲和力的关键。

JSSM-DTA的创新之处在于其采用了多尺度扩散Transformer(MSDT)和自适应卷积Transformer(ACT)的结合。MSDT通过在不同尺度的图邻域范围内进行层次化信息传递,捕捉了分子的局部和全局结构依赖关系。ACT则专注于序列特征的提取,通过捕捉分子内部的复杂局部依赖关系和长距离上下文关联,提升了模型的表达能力。同时,FII Module通过整合异质分子表示,实现了高效的跨模态特征交换,增强了模型的交互建模能力。

为了验证JSSM-DTA的有效性,本文在多个基准数据集上进行了实验评估。其中包括Davis、KIBA、Metz和BindingDB等数据集。这些数据集涵盖了不同类型的药物-靶点相互作用数据,包括已知的结合亲和力数值和未标记的相互作用数据。通过六折交叉验证策略,确保了模型的训练过程具有良好的泛化能力,并且减少了过拟合的风险。实验结果显示,JSSM-DTA在这些数据集上的预测精度优于当前最先进的方法,证明了其在DTA预测中的有效性。

此外,本文还对JSSM-DTA的可解释性进行了分析。通过可视化技术,模型能够突出关键的药物子结构和结合残基,使得预测结果更加透明。这种可解释性对于药物发现领域尤为重要,因为研究人员需要了解模型的决策过程,以便在药物筛选和开发过程中做出科学合理的判断。JSSM-DTA的可解释性不仅提升了模型的可信度,还为后续的药物优化和开发提供了理论依据。

综上所述,JSSM-DTA框架通过多尺度扩散机制和跨模态注意力机制,提供了一种更加全面和高效的DTA预测方法。该框架不仅克服了传统方法在表示学习和特征提取方面的局限性,还通过整合序列和结构信息,提升了模型的表达能力和预测精度。同时,其可解释性设计使得模型在药物发现过程中更具实用性。这些创新点使得JSSM-DTA成为当前DTA预测领域的重要工具,并为未来的药物研发提供了新的思路和方法。

本文的结构如下:第二部分详细介绍了JSSM-DTA框架,包括输入表示、嵌入块、序列表示学习、图表示学习、跨模态特征注意力以及DTA预测模块。第三部分描述了实验设计和所使用的数据集。第四部分展示了实验结果,并提供了全面的讨论。第五部分总结了研究的主要结论。第六部分讨论了JSSM-DTA的局限性,并提出了未来研究的方向。通过这些部分的系统阐述,本文为DTA预测领域的研究提供了新的视角,并为后续研究奠定了理论基础。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号