MSIDiff:一种多阶段交互感知扩散模型,用于生成特定蛋白质的三维分子结构
《Expert Systems with Applications》:MSIDiff:Multi-Stage Interaction-Aware Diffusion Model for Protein-Specific 3D Molecule Generation
【字体:
大
中
小
】
时间:2025年09月25日
来源:Expert Systems with Applications 7.5
编辑推荐:
多阶段交互感知扩散模型MSIDiff用于蛋白质靶向分子生成,通过预训练网络MSINet提取初始阶段的蛋白质-配体相互作用信息,并利用动态节点选择机制和GRU-based跨层更新模块整合多阶段交互数据,显著提升分子结合亲和力(平均Vina得分-6.36)。
在结构导向的药物设计(Structure-Based Drug Design, SBDD)领域,研究人员正致力于开发能够与特定蛋白质靶点高亲和力结合的三维配体分子。这一过程的关键在于精准捕捉蛋白质与配体之间的复杂相互作用,包括氢键、疏水相互作用、范德华力以及金属配位等。然而,现有的扩散模型(Diffusion Models)在分子生成任务中虽展现出潜力,但通常只关注生成过程中的单一阶段,这种局限性使得它们难以整合来自正向和反向过程的多阶段蛋白质-配体相互作用信息,从而可能影响生成分子的结合亲和力。为了解决这一问题,本文提出了一种名为MSIDiff的新型多阶段相互作用感知扩散模型,专门用于蛋白质导向的分子生成任务。
MSIDiff通过在初始扩散阶段利用预训练的MSINet模型提取真实的蛋白质-配体相互作用信息,并将这些信息整合到反向生成过程中,以确保生成的分子能够准确地与目标蛋白质相互作用。在生成过程中,MSIDiff引入了一种评分机制,用于筛选关键节点,提取重要的蛋白质-配体相互作用数据。此外,该模型还采用了一种基于门控循环单元(GRU)的跨层相互作用更新模块,通过递归整合不同去噪阶段的信息,促进有效的跨层信息传递。实验结果表明,MSIDiff能够在CrossDocked2020数据集上生成具有更真实三维结构和更高结合亲和力的分子,其平均Vina评分达到了-6.36,同时保持了适当的分子属性。代码和数据已开源,可在GitHub上访问。
在结构导向的药物设计中,传统的药物发现方法如虚拟筛选、分子动力学模拟和自由能计算等,虽然在一定程度上被广泛应用,但这些方法往往计算成本高、效率低,并且在生成新分子结构方面存在局限性。相比之下,近年来发展起来的基于深度生成模型的计算技术,如先进的分子对接、增强型分子动力学模拟以及基于机器学习的相互作用建模,为加速药物发现和揭示分子机制提供了新的可能性。特别是三维分子生成模型的出现,使得药物设计的流程更加高效和可行。
在这一背景下,生成模型的研究逐渐成为药物发现领域的重要方向。目前,已有多种生成模型被应用于SBDD,包括基于变分自编码器(VAE)、生成对抗网络(GAN)以及归一化流(Normalizing Flows)的模型。这些模型在生成符合目标要求的分子方面取得了一定成效,但它们主要依赖于分子序列或二维结构信息,难以全面捕捉蛋白质与配体之间的三维空间相互作用。因此,一些专门的三维生成模型开始出现,它们利用蛋白质-配体结合数据库,如CrossDocked2020,以更好地学习蛋白质口袋的几何和化学特征。例如,LiGAN、GraphBP和Pocket2Mol等模型采用图神经网络(GNN)和自回归策略,对配体生成进行三维建模。
然而,尽管这些模型在一定程度上提升了生成分子的质量,但它们仍然存在一定的局限性。首先,许多模型主要依赖于局部几何特征或二维化学信息,忽略了全局相互作用模式,从而限制了其对蛋白质-配体相互作用的准确建模能力。其次,蛋白质-配体结合过程的动态性要求模型能够有效提取、选择和传播关键的相互作用信息,这在传统架构中难以实现。最后,缺乏高效的机制来传递和更新相互作用信号,使得在分子结构演变过程中,相互作用信息的一致性和相关性难以维持。因此,现有的方法在全面利用蛋白质-配体相互作用的动态性和多尺度特性方面仍显不足,这可能限制生成分子的结合亲和力和结构真实性。
为了克服这些挑战,本文提出了一种全新的多阶段相互作用感知扩散模型——MSIDiff。该模型不同于传统的单阶段扩散方法,而是通过动态、多尺度的框架,在多个阶段中整合蛋白质-配体相互作用信息。为了实现这一目标,MSIDiff引入了一个专门的预训练交互网络MSINet,该网络能够从大规模的结合亲和力数据中学习并编码通用的蛋白质-配体相互作用特征。MSINet在初始扩散阶段提取真实的蛋白质-配体相互作用信息,并将这些信息整合到后续的生成阶段中,以指导分子的生成过程。基于此基础,MSIDiff进一步引入了一个动态节点选择模块和一个基于GRU的跨层相互作用更新模块,这些模块能够在生成过程中高效地传播、优化和融合相互作用信号,从而提升模型对蛋白质-配体相互作用的建模能力。
动态节点选择模块的作用在于识别并选择关键的相互作用位点,这些位点对于分子与蛋白质的结合具有重要意义。通过评分机制,该模块能够评估不同节点的重要性,并据此进行选择。这一过程有助于模型在生成分子时,重点关注与蛋白质结合相关的区域,从而提高生成分子的结合亲和力。此外,基于GRU的跨层相互作用更新模块则通过递归的方式,对不同去噪阶段的信息进行整合和优化。GRU作为一种循环神经网络,能够有效处理序列数据,同时保持信息的流动性。在MSIDiff中,该模块被用来在生成过程中逐步优化和更新相互作用信息,从而确保生成的分子在结构和化学特性上更加合理。
MSIDiff的提出不仅提升了结构导向药物设计的效率,还解决了传统方法在多阶段相互作用建模方面的不足。通过整合来自正向和反向扩散过程的相互作用信息,MSIDiff能够在生成分子时,更全面地考虑蛋白质-配体之间的动态和多尺度相互作用。这一能力使得生成的分子不仅在化学上有效,而且在结构上更加接近真实的蛋白质结合情况。实验结果表明,MSIDiff在CrossDocked2020基准测试中表现优异,其生成的分子平均Vina评分为-6.36,远高于之前的方法。这一结果验证了MSIDiff在高亲和力分子生成方面的优越性能。
本文的主要贡献包括以下几个方面:首先,提出了一种名为MSIDiff的新型三维分子扩散模型,该模型能够动态整合多阶段的蛋白质-配体相互作用信息,以提升结构导向药物设计的效率和准确性。其次,设计并预训练了一个专门的交互网络MSINet,该网络能够提供基于结合亲和力的蛋白质-配体相互作用嵌入,作为分子生成的先验信息。第三,引入了动态节点选择模块和基于GRU的跨层相互作用更新机制,这些模块能够在生成过程中高效地传播、优化和融合相互作用信号,从而提升模型的性能。第四,通过在CrossDocked2020数据集上的实验,验证了MSIDiff在生成高亲和力分子方面的有效性,其平均Vina评分为-6.36,同时保持了良好的分子属性。
为了进一步探讨MSIDiff的工作原理,本文的后续部分将从以下几个方面展开。首先,第二部分将介绍结构导向的药物设计、扩散模型的基本概念以及生成导向的蛋白质-配体相互作用。其次,第三部分将详细描述MSIDiff模型的架构,包括其核心组件和工作机制。第三部分还将介绍MSINet网络的设计与预训练过程,以及动态节点选择模块和跨层相互作用更新模块的具体实现。第四部分将介绍实验所使用的数据集、基线模型、评估方法以及实验结果和消融研究。最后,第五部分将总结本文的研究成果,并展望未来的研究方向。
结构导向的药物设计(SBDD)是当前药物发现研究中的重要方法之一,其核心在于基于蛋白质结构生成具有高结合亲和力的配体分子。传统的SBDD方法主要依赖于分子图或SMILES字符串生成模型,这些模型虽然能够生成符合一定要求的分子,但在准确捕捉蛋白质与配体之间的三维空间相互作用方面存在局限。近年来,随着计算技术的进步,研究人员开始探索更高效的生成方法,如基于深度学习的扩散模型。扩散模型通过逐步去噪的方式生成分子,能够在一定程度上提高生成分子的多样性与化学合理性。然而,现有的扩散模型通常只关注单一阶段的生成过程,缺乏对多阶段蛋白质-配体相互作用信息的整合能力,这在一定程度上限制了其对结合亲和力的准确建模。
为了弥补这一不足,本文提出的MSIDiff模型引入了多阶段的相互作用感知机制,能够在多个阶段中整合蛋白质-配体相互作用信息。这一机制的核心在于,MSIDiff利用预训练的MSINet模型,在初始扩散阶段提取真实的蛋白质-配体相互作用信息,并将这些信息整合到后续的生成阶段中,以指导分子的生成。通过这种方式,MSIDiff能够在生成过程中更全面地考虑蛋白质与配体之间的动态和多尺度相互作用,从而提升生成分子的结合亲和力和结构合理性。
此外,MSIDiff还引入了一个动态节点选择模块,该模块能够通过评分机制筛选关键的相互作用节点,以提取重要的蛋白质-配体相互作用数据。这一过程有助于模型在生成分子时,重点关注与蛋白质结合相关的区域,从而提高生成分子的结合亲和力。同时,基于GRU的跨层相互作用更新模块则通过递归的方式,对不同去噪阶段的信息进行整合和优化,从而确保生成的分子在结构和化学特性上更加合理。这一模块的设计使得MSIDiff能够在生成过程中逐步优化和更新相互作用信息,从而提升模型的性能。
在实验方面,本文使用了CrossDocked2020数据集,该数据集包含了大量蛋白质-配体复合物的三维结构信息,是当前结构导向药物设计研究中的常用基准数据集。通过在该数据集上的实验,本文验证了MSIDiff在生成高亲和力分子方面的有效性。实验结果表明,MSIDiff能够生成具有更真实三维结构和更高结合亲和力的分子,其平均Vina评分为-6.36,远高于之前的方法。这一结果不仅验证了MSIDiff在高亲和力分子生成方面的优越性能,还表明其在结构导向药物设计中的应用前景。
尽管MSIDiff在生成高亲和力分子方面表现优异,但其在结合相关指标与分子属性相关指标之间仍存在一定的权衡。例如,虽然某些模型在结合亲和力方面表现突出,但在分子属性如QED(Quantitative Estimation of Drug-likeness)和合成可及性(Synthetic Accessibility, SA)方面可能存在不足。MSIDiff虽然在生成过程中对结合亲和力和结构合理性进行了显式优化,但在某些指标上仍需进一步改进。因此,未来的研究可以进一步探索如何在保持结合亲和力的同时,优化分子属性相关指标,以提升生成分子的整体质量。
在实际应用中,MSIDiff的提出为结构导向的药物设计提供了新的方法论支持。通过多阶段的相互作用感知机制,该模型能够在生成过程中更全面地考虑蛋白质与配体之间的动态和多尺度相互作用,从而提升生成分子的结合亲和力和结构合理性。这一能力使得MSIDiff在药物发现领域具有广泛的应用前景。此外,MSIDiff的模块化设计也为其后续优化和扩展提供了便利,例如可以进一步引入更复杂的相互作用建模机制,以提升生成分子的多样性与化学合理性。
综上所述,MSIDiff的提出为结构导向的药物设计提供了一种全新的解决方案。通过整合多阶段的蛋白质-配体相互作用信息,该模型能够在生成过程中更全面地考虑蛋白质与配体之间的动态和多尺度相互作用,从而提升生成分子的结合亲和力和结构合理性。此外,MSIDiff的模块化设计和高效的信息传递机制也为其在实际应用中的推广提供了便利。实验结果表明,MSIDiff在CrossDocked2020数据集上的表现优于现有方法,其生成的分子平均Vina评分为-6.36,同时保持了良好的分子属性。这一结果不仅验证了MSIDiff在高亲和力分子生成方面的优越性能,还表明其在结构导向药物设计中的应用前景。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号