综述:利用PubChem等公共数据库进行2025年虚拟筛选的最新趋势分析

【字体: 时间:2025年09月16日 来源:Expert Opinion on Drug Discovery 4.9

编辑推荐:

  这篇综述系统总结了2024-2025年利用PubChem、ChEMBL、ZINC等公共数据库进行虚拟筛选(VS)的最新进展,重点探讨了结构基(SBVS)和配体基(LBVS)筛选策略的整合应用,以及机器学习(ML)和人工智能(AI)在超大规模化学空间导航中的创新实践。文章通过案例展示了实验验证的计算命中化合物,为药物发现提供了高效的数据挖掘方法学参考。

  

引言

化学信息学已成为现代药物发现的基石,其通过管理海量化学与生物数据,支撑了虚拟筛选(VS)的高效实施。公共数据库如PubChem、ZINC、ChEMBL等提供了涵盖小分子、天然产物、药物靶点的多元化信息,成为挖掘活性化合物的关键资源。2024-2025年的研究趋势显示,VS已从传统的相似性搜索扩展到整合机器学习(ML)和超大规模库(109分子)的智能筛选。

公共数据库工具与化学空间分析

PubChem作为NIH维护的综合性平台,整合了1.2亿化合物和2.96亿生物活性数据,其API和2D/3D相似性搜索功能支持快速数据集构建。ChEMBL则专注于生物活性注释,其ECFP4指纹分析显示,尽管库容增长,化学多样性并未同步提升。COCONUT收录69万天然产物,通过Tanimoto系数过滤可定位独特支架。通过t-SNE可视化(图2)和统计指纹(SB-DFP)分析(图3),PubChem的化学空间覆盖最广,而Enamine和ZINC因商业化合物集中呈现较高相似性。

关键案例

  • 抗结核筛选:通过ML模型从DrugBank中预测出aldoxorubicin(MIC 3.12–16.65 μg/mL),其抑制耐药结核杆菌的活性通过实验验证。

  • 癌症靶点:SBVS发现SLC7A11抑制剂(化合物2),可降低癌细胞谷胱甘肽水平22%,并通过ROS诱导凋亡。

计算方法创新

LBVS依赖配体相似性,如3D形状搜索识别阿尔茨海默病PET探针(Ki <1 μM)。SBVS则需靶点结构,例如PDK1-AGC激酶相互作用抑制剂(化合物3)通过药效团模型和元动力学模拟锁定,体外IC50达7.11 μM。混合方法如FAK抑制剂(化合物5)结合了药效团筛选和分子动力学(MD),迁移抑制率53.3%。

ML的突破

  • GABAA受体调节剂:ChEMBL训练的CDK_LR模型筛选出GPR120,使GABA电流增强163.8%,媲美地西泮。

  • 多模态学习:FnGATGCN模型整合指纹与原子图,预测VEGFR2抑制剂ZINC8598095(IC50 0.88 μM),其抗A549细胞活性优于索拉非尼。

挑战与未来方向

数据标准化和靶点验证仍是核心难题。例如,AlphaFold对无序蛋白的预测局限,以及临床前模型与人体反应的差异,凸显了实验验证的必要性。建议通过FAIR原则规范数据共享,并开发耐药靶点的动态筛选策略。

专家视角

公共数据库需强化AI工具集成,如自动生成ML模型或毒性预警。维护资金短缺可能威胁资源可持续性,但开放科学将加速药物发现的民主化进程。未来,PubChem等平台若嵌入实时活性预测和负数据标注功能,或将成为下一代智能筛选的枢纽。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号