
-
生物通官微
陪你抓住生命科技
跳动的脉搏
AI/ML驱动的DPP-4抑制剂预测工具d4p_v1:化学空间、指纹图谱与静电势能图解析推动2型糖尿病精准治疗新策略
【字体: 大 中 小 】 时间:2025年09月24日 来源:Archiv der Pharmazie-Chemistry in Life Sciences 3.6
编辑推荐:
本综述系统探讨了DPP-4抑制剂(DPP-4i)的化学空间与结构-活性关系,通过片段化定量构效关系(QSAR)模型识别出2-氰基吡咯烷(2-cyanopyrrolidine)、3-氨基四氢吡喃(3-amino tetrahydropyran)和二氟苯基(difluoro phenyl)等关键活性片段,并借助前沿分子轨道(HOMO–LUMO)分析与静电势能图(ESP)验证其电子特性。研究进一步开发了基于人工智能/机器学习(AI/ML)的在线预测工具d4p_v1,可实现高效DPP-4i筛选,为2型糖尿病(T2DM)药物研发提供新视角。
2型糖尿病(T2DM)已成为21世纪全球公共卫生的重大挑战,影响数亿人口并带来巨大的社会经济负担。传统药物如磺酰脲类和噻唑烷二酮类虽能降低血糖,但常伴随严重副作用。二肽基肽酶-4抑制剂(DPP-4i)作为一类新型口服降糖药,通过抑制DPP-4酶延缓肠促胰岛素(如GLP-1和GIP)的降解,从而以葡萄糖依赖性方式促进胰岛素分泌并抑制胰高血糖素释放,有效降低低血糖风险。本研究旨在通过多维度分析揭示DPP-4抑制剂的化学空间特征,识别关键活性片段,并开发AI驱动的预测工具以加速药物发现。
研究采用基于扩展连通性指纹(ECFP4)的化学空间分析工具Fasda_v1.0,对3061个DPP-4抑制剂进行聚类和多样性评估。通过主成分分析(PCA)和k均值聚类(k-MCA)将化合物划分为5个集群,各集群的Bemis–Murcko骨架多样性和单例骨架比例(0.648–0.727)表明数据集具有高度结构多样性。Tanimoto相似性分析显示,活性悬崖(activity cliffs)仅占化合物对的0.02%,提示大多数结构相似化合物具有一致的活性趋势。
贝叶斯分类模型利用ECFP6指纹及物化参数(如分子量MW、氢键供体nHBD、脂溶性LogP等)构建,训练集灵敏度(Se)达0.880,ROCLOO为0.872,测试集ROCTest为0.828。模型识别出20个促进活性的“优良指纹”(如G1、G5、G10、G14)和20个降低活性的“不良指纹”(如B1、B12、B16、B19)。其中,2-氰基吡咯烷(G1、G5)模拟DPP-4底物的P1位脯氨酸结构,赋予化合物纳摩尔级抑制活性(如D0012、D0013);3-氨基四氢吡喃(G10)片段显著增强活性(D0010的IC50=0.12 nM);二氟苯基(G14)则通过疏水与电子效应提升稳定性(D0094的IC50=0.7 nM)。相反,含β-氨基酰基的吡唑啉(B1、B12)和4-氨基哌啶(B16、B19)片段导致活性显著下降(如D2766的IC50=8900 nM)。
通过密度泛函理论(DFT)在B3LYP/6-31+g(d)水平计算代表性化合物的电子性质。HOMO–LUMO能隙分析揭示:D0010能隙最低(4.22 eV),反应性最强;D0094能隙最高(5.27 eV),稳定性最佳;D0012(4.54 eV)和D0013(4.36 eV)则平衡了反应性与稳定性。静电势能图(ESP)显示,氰基和氟原子区域呈现高电子密度(红色/黄色),易与蛋白亲核残基相互作用;而烷基区域电子匮乏(蓝色),利于疏水结合。反应描述符计算进一步证实:D0010具有最高亲电性指数(ω=13.29 eV)和软度(S=0.47 eV),表明其强电子接受能力;D0094则表现出高硬度(η=2.64 eV)和低软度(S=0.38 eV),符合其稳定特性。
研究采用随机森林(RF)算法构建分类模型,通过Optuna优化超参数(n_estimators=72, max_depth=29)。模型训练集准确率(Ac)达88%,测试集Ac为83%,马修斯相关系数(MCC)为0.661。特征选择基于信息增益(MI>0.15),从1614个描述符中筛选出13个关键描述符(如Xch-7d、BCUTd-1l、SlogP_VSA2)。部分依赖图(PDP)显示这些描述符与电子特性(如HOMO–LUMO能隙)高度关联,验证了ML模型与量子化学计算的一致性。
最终开发的在线工具d4p_v1(https://github.com/Amincheminfom/d4p_v1)集成于Google Colab平台,用户输入SMILES字符串即可自动计算描述符并预测化合物活性(Active/Inactive)。该工具涵盖应用域(AD)分析,确保预测可靠性,为DPP-4抑制剂的高通量筛选提供便捷、准确的解决方案。
本研究通过整合化学信息学、量子计算与机器学习,系统解析了DPP-4抑制剂的构效关系,关键片段2-氰基吡咯烷、3-氨基四氢吡喃和二氟苯基为设计高效抑制剂提供结构基础。d4p_v1工具的推出不仅加速了糖尿病药物研发进程,也为多靶点药物设计(如抗炎、抗氧化领域)提供了可扩展的分析框架。未来工作将聚焦于拓展模型至动态蛋白-配体相互作用模拟及临床前有效性验证。
生物通微信公众号
知名企业招聘