基于共享口袋-配体空间学习的层级亲和力景观导航模型LigUnity:实现高效虚拟筛选与先导化合物优化

【字体: 时间:2025年09月18日 来源:Patterns 7.4

编辑推荐:

  本刊推荐:为解决传统虚拟筛选(VS)与先导化合物优化(H2L)方法割裂、数据利用粗放的问题,研究人员开发了蛋白质-配体亲和力基础模型LigUnity。该模型通过搭建共享嵌入空间,融合支架判别(scaffold discrimination)与药效团排序(pharmacophore ranking)策略,在虚拟筛选中较24种方法提升>50%效率,在先导优化中达到接近FEP+精度而成本大幅降低,且实现106倍加速,为药物发现提供了高效统一的计算基础。

  

在药物研发的漫长征程中,科学家们一直在寻找能够精准调控疾病靶点的小分子药物。这一过程通常分为两个关键阶段:首先是从海量化合库中快速筛选出有潜力的“苗头化合物”(hit)的虚拟筛选(virtual screening, VS)阶段;接着是对这些苗头化合物进行结构改造,优化其活性和成药性的先导化合物优化(hit-to-lead optimization, H2L)阶段。传统的计算方法,如分子对接(docking)和自由能微扰(Free Energy Perturbation, FEP),分别用于这两个阶段,但它们各自面临严峻挑战:对接方法计算昂贵,难以应对亿万级的化合物库;而FEP虽然精度较高,但需要巨大的计算资源,成本高昂。

更核心的问题是,现有的机器学习方法大多将这两个任务割裂开来。虚拟筛选模型只关心化合物“是否结合”,忽略了“结合得多好”的细微差异信息;而先导优化模型则局限于已知的化学骨架(scaffold)内,难以发现结构新颖的活性分子。如何充分利用日益增长的实验亲和力数据,构建一个既能广撒网快速筛选,又能精耕作细微优化的统一模型,成为了计算药物设计领域一个亟待解决的难题。

针对这一挑战,来自国际数字经济研究院(IDEA)、晶泰科技以及华盛顿大学的研究团队在《Patterns》上发表了他们的研究成果。他们提出了LigUnity(Ligand Unified Affinity)模型,这是一个蛋白质-配体亲和力预测的基础模型(foundation model),其核心创新在于通过学习一个共享的“口袋-配体”嵌入空间,将虚拟筛选和先导优化这两个任务统一起来。该模型在多项基准测试中展现出卓越性能:虚拟筛选中显著超越24种现有方法,先导优化中以极低成本达到接近高精度FEP+方法的水平,并且实现了相比传统对接方法高达106倍的加速,为早期药物发现提供了一个强大而高效的通用工具。

为开展本研究,作者团队构建了目前最大的整合了生物测定数据与结合口袋结构的数据集PocketAffDB(包含80万亲和力数据点,50万独特配体,5.3万个口袋)。关键技术方法包括:1) 通过 assay-guided pocket matching 方法为大量蛋白-配体对分配合适的3D口袋结构;2) 采用基于Uni-Mol的编码器分别提取口袋和配体的3D结构特征;3) 通过分层亲和力景观导航(hierarchical affinity landscape navigation)策略进行预训练,结合了粗粒度的支架判别(scaffold discrimination)和细粒度的药效团排序(pharmacophore ranking)学习目标;4) 在虚拟筛选中,引入异质图神经网络(Heterogeneous Graph Neural Network, H-GNN)利用大规模口袋-配体知识图谱来优化查询口袋的表征;5) 在推理阶段,通过计算口袋与配体嵌入的余弦相似度来快速预测亲和力。

LigUnity improves virtual screening

研究人员首先在三个权威的虚拟筛选基准数据集(DUD-E、DEKOIS 2.0 和 LIT-PCBA)上评估了LigUnity的性能,并与包括分子对接(如Glide-SP、Vina)、结构基于机器学习(如RTMScore、GenScore)和无结构方法(如DrugCLIP)在内的24种竞争方法进行了比较。结果表明,LigUnity在所有基准测试中均取得了最佳性能。特别是在DUD-E和DEKOIS上,其富集因子(Enrichment Factor, EF1%)相比最好的结构基于方法有超过50%的提升。更重要的是,LigUnity展现出了强大的泛化能力。即使在排除与测试蛋白有30%序列相似性的训练蛋白后(模拟对新靶点的预测),其性能依然显著优于商业对接软件Glide-SP和深度学习方法DrugCLIP。LIT-PCBA基准测试更具挑战性,因为它包含了更多与活性配体结构相似的非活性配体,且活性与非活性比例更接近真实场景(1:1000),LigUnity在此同样表现优异。此外,其推理速度极具优势,一旦预计算好嵌入,筛选速度比Glide-SP快106倍。消融实验证实,支架判别、药效团排序和H-GNN三个组件都对最终性能有重要贡献,缺一不可。

LigUnity improves hit-to-lead optimization

研究团队进一步评估了LigUnity在先导化合物优化任务上的潜力,即在已知活性分子中精确区分其结合亲和力的细微差异。他们在两个FEP基准(JACS和Merck)上进行了测试。在零样本(zero-shot)设置下(即模型在预训练和微调中都未使用任何测试蛋白的实测配体),LigUnity的预测结果(斯皮尔曼秩相关系数 ρ)就超过了传统的Glide-SP、MM/GBSA以及专门的机器学习方法。在更现实的少样本(few-shot)设置下,即使用测试蛋白的少量(20%-80%)实测配体数据对模型进行微调,LigUnity的性能得到进一步提升。在最具挑战性的“排除相似配体和蛋白”的设置下,当使用80%的配体(平均每个靶点23.2个)微调后,LigUnity在Merck基准上达到了决定系数 r2 = 0.472,其精度与耗资巨大的FEP+(OPLS4力场,r2 = 0.528)非常接近,而计算成本却低数个量级。这表明LigUnity可以作为一种高效、准确的替代方案,大幅降低先导优化阶段的资源消耗。另一项消融研究突显了药效团排序目标的至关重要性,将其移除会导致性能下降超过50%。通过系统性掩蔽蛋白口袋中关键相互作用残基的实验,证实LigUnity确实依赖于真实的蛋白-配体相互作用模式来做出预测。

LigUnity as a versatile foundation model for different applications

为了全面检验LigUnity作为基础模型的通用性,研究团队在多种数据划分设置下进行了测试。在按时间划分(split-by-time)和按骨架划分(split-by-scaffold)的设置下,LigUnity在ChEMBL和BindingDB数据集上均超越了八种竞争方法,显示出其强大的时序泛化能力和对新颖化学结构的适应性。一个关于磷酸二酯酶10A(PDE10A)的案例研究生动地展示了其应用价值:在一个按时间划分的严格测试中,LigUnity微调后的模型在测试集上取得了0.55的皮尔逊相关系数,显著优于DrugCLIP的0.37,并能更有效地从大量候选分子中识别出高活性(IC50 < 1 nmol)的配体。特别有趣的是在按单位划分(split-by-unit)的设置下,测试集使用百分比(%)单位,而训练集使用摩尔浓度或密度单位。LigUnity凭借其药效团排序(学习相对排名而非绝对值)的优势,表现出了显著的鲁棒性,相比回归模型Pocket-DTA有40.2%的提升,证明了其处理不同实验单位和assay类型差异的强大能力。

LigUnity boosts the active learning framework for drug discovery

最后,研究团队探索了LigUnity在一个模拟真实药物发现流程的主动学习(active learning)框架中的应用。他们以酪氨酸激酶2(TYK2)为靶点,该数据集包含通过FEP计算获得的10,000个配体的结合自由能(耗时约9.1 GPU年)。在这个框架中,初始仅使用少量随机选择的配体数据训练模型,随后在每次迭代中,模型选择一批最值得实验的未测试配体,通过“虚拟FEP”(即模型预测)或实际F计算获取其标签,并加入训练集更新模型。结果表明,整合了LigUnity的主动学习框架能够高效地发现高活性配体,仅需几次迭代即可找到结合自由能最优的化合物。无论是采用贪婪策略(greedy strategy)还是探索-利用策略(exploration-exploitation strategy),LigUnity均持续优于其他机器学习对比方法,在预测精度(r2)和高活性分子召回率上均有超过40%的提升,彰显了其在利用有限实验资源加速分子优化进程方面的巨大潜力。

研究表明,LigUnity作为一个统一的蛋白质-配体亲和力基础模型,成功地弥合了虚拟筛选与先导化合物优化之间的鸿沟。其通过搭建共享嵌入空间并融合分层学习策略,能够同时高效处理从海量库中快速发现苗头化合物和精确预测细微结构变化对亲和力影响这两类任务。研究构建的大规模结构感知数据集PocketAffDB和提出的assay引导口袋匹配方法,为领域提供了宝贵资源。实验结果充分证明,LigUnity在虚拟筛选中具有卓越的效率和精度,在先导优化中能以极低成本逼近高精度物理计算方法的表现,并且展现出强大的泛化能力、鲁棒性和实用性。该模型不仅为计算药物发现提供了新的强大工具,其核心思想——通过联合优化相关任务来相互促进、提升模型整体性能——也对机器学习在其他科学领域的应用具有重要的启示意义。尽管存在无法应用于无靶点信息的表型筛选assay等局限性,但LigUnity无疑代表了向建立更高效、更统一的计算药物设计范式迈出的关键一步。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号