
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于对比解释的化学机器学习预测方法:MolCE框架在D2样多巴胺受体配体选择性预测中的应用与解释
【字体: 大 中 小 】 时间:2025年09月24日 来源:Journal of Cheminformatics 5.7
编辑推荐:
本研究针对化学机器学习(ML)预测中缺乏直观解释的问题,开发了分子对比解释(MolCE)方法。通过生成虚拟类似物并量化对比偏移,系统分析D2样多巴胺受体(D2R、D3R、D4R)配体选择性预测的决策依据。该方法提供化学直观、分子层面可解释的对比解释,为XAI在药物发现中的应用提供新范式。
随着人工智能技术的快速发展,机器学习在化学和药物发现领域的应用日益广泛。然而,大多数现代机器学习模型如同“黑盒”,其决策过程缺乏透明度和可解释性,这严重限制了预测结果在跨学科研究(如药物研发)中的接受度。特别是在化学领域,研究人员不仅需要知道模型预测的结果,更希望理解预测背后的分子机制和结构特征。传统的可解释人工智能(XAI)方法如特征归因分析(LIME、SHAP)或规则锚定(anchors)虽能提供局部解释,但往往只关注单一预测结果,未能从对比视角分析不同预测结果之间的差异。人类在解释事件时,常会思考“为什么是P而不是Q?”,这种对比推理(contrastive reasoning)能更清晰地揭示决策关键。针对化学机器学习中这一解释性瓶颈,来自波恩大学的研究团队开发了分子对比解释(MolCE)方法,通过生成虚拟类似物并系统分析结构修饰对预测结果的影响,为化学家提供直观且可操作的分子层面解释。该研究发表于《Journal of Cheminformatics》,为XAI在化学领域的应用开辟了新方向。
研究团队主要采用以下关键技术方法:1. 基于Bemis-Murcko骨架分解法将化合物拆解为骨架和取代基;2. 从BindingDB和ChEMBL数据库提取的658,659个独特骨架构建参考字典,通过碳骨架还原和泛化识别拓扑相似骨架;3. 通过系统替换取代基或骨架生成虚拟类似物(foils);4. 基于平衡随机森林(BRF)模型进行D2R-D4R和D3R-D4R选择性预测;5. 使用对比行为(δcontr)量化模型概率分布偏移,计算公式为δcontrp,q = py/(py+py′) - qy/(qy+qy′),其中正值表示向箔类(foil class)的对比偏移;6. 应用扩展连通性指纹(ECFP4)进行分子表征;7. 通过Tanimoto相似性分析确保生成物落在模型应用域内。
BRF模型在区分选择性和非选择性化合物方面表现出良好性能,全局准确率约80%。D3R-D4R数据集的马修斯相关系数(MCC)中值(0.62)略高于D2R-D4R数据集(0.57)。精确度中值(0.60-0.72)普遍低于召回率(0.79-0.82),表明模型能有效识别正例。混淆矩阵显示,错误预测的选择性化合物多被归类为非选择性,而非错误选择性类别,证实模型在低数据场景下的可靠性。


对比分析针对正确预测的非选择性化合物和错误预测的选择性实例进行。 applicability domain分析表明,测试实例和生成箔的预测概率分布相似,且与训练化合物的Tanimoto相似性分布一致,确认对比样本位于模型应用域内。对比偏移与结构相似性无显著相关(Pearson相关系数-0.08至-0.24),表明偏移源于特定化学修饰而非累积特征扰动。


通过示例性非选择性化合物的MolCE分析揭示,含醚基团的大体积取代基及将咪唑烷酮替换为吡咯啉的骨架修饰可导致向D2R选择性的显著对比偏移(δcontr=0.32-0.34)。吡咯啉基团在D2R选择性配体中出现频率(31%)显著高于D4R选择性(9%)和非选择性配体(10%),证实其结构相关性。最小对比取代基(如氟与氯互换)和骨架则进一步支持原始预测。

全局MolCE分析识别出关键对比特征:对于D3R-D4R数据集,酰胺连接器和萘环骨架及胺/酰胺衍生物取代基最易引起向D3R选择性的偏移;而含氟取代基和杂环胺骨架则强化非选择性预测。对于错误预测的D4R选择性化合物,哌嗪连接N杂环的骨架模式(出现于65%的D4R选择性配体)被识别为关键对比特征,SHAP分析进一步验证该基团对正确预测的贡献。


该研究首次将对比解释概念系统应用于化学机器学习领域,建立的MolCE方法论通过生成虚拟类似物和量化对比偏移,为黑盒模型预测提供化学直观、分子层面可解释的对比解释。研究表明,最小结构修饰(如骨架替换或取代基变化)可显著影响模型决策,揭示驱动选择性预测的关键分子特征。与传统特征归因方法相比,MolCE提供的结构类比解释更易被化学家理解和应用,特别适用于药物发现中的候选物优化和合成决策。该方法可扩展至回归任务和分子反事实分析,为XAI在化学领域的应用提供新范式。研究发布的 selectivity数据集和MolCE方法将促进化学机器学习可解释性的进一步发展。
生物通微信公众号
知名企业招聘