-
生物通官微
陪你抓住生命科技
跳动的脉搏
MolCompass:用于化学空间导航和QSAR/ QSPR模型视觉验证的新工具
【字体: 大 中 小 】 时间:2024年08月22日 来源:AAAS
编辑推荐:
近年来,机器学习模型在化合物风险评估中越来越受欢迎。然而,由于缺乏透明度,它们通常被认为是“黑盒子”,导致毒理学家和监管机构的怀疑。为了增加对这些模型的信心,维也纳大学的研究人员建议仔细确定这些模型薄弱的化学空间区域。为此,他们开发了一种创新的软件工具(MolCompass),这种研究方法的结果刚刚发表在著名的《化学信息学杂志》上。
近年来,机器学习模型在化合物风险评估中越来越受欢迎。然而,由于缺乏透明度,它们通常被认为是“黑盒子”,导致毒理学家和监管机构的怀疑。为了增加对这些模型的信心,维也纳大学的研究人员建议仔细确定这些模型薄弱的化学空间区域。为此,他们开发了一种创新的软件工具(“MolCompass”)。
多年来,新的药品和化妆品一直在动物身上进行试验。这些测试费用昂贵,引起伦理问题,而且往往不能准确预测人类的反应。最近,欧盟支持了risk - hunt3r项目,以开发下一代非动物风险评估方法。维也纳大学是该项目联盟的成员之一。计算方法现在允许完全通过计算机评估新化学品的毒理学和环境风险,而不需要合成化合物。但还有一个问题:这些计算机模型有多可靠?
这都是关于可靠的预测
为了解决这个问题,维也纳大学药物信息学研究小组的资深科学家Sergey Sosnin专注于二元分类。在这种情况下,机器学习模型提供从0%到100%的概率分数,表明化合物是否有活性(例如,有毒或无毒,生物蓄积性或非生物蓄积性,特定人类蛋白质的粘合剂或非粘合剂)。这个概率反映了模型对其预测的信心。理想情况下,模型应该只对其正确的预测有信心。如果模型是不确定的,给出的置信度分数在51%左右,这些预测可以被忽略,而采用其他方法。然而,当模型对不正确的预测充满信心时,挑战就出现了。
“对于计算毒理学家来说,这是真正的噩梦,”谢尔盖·索斯宁说。“如果一个模型以99%的信心预测一种化合物是无毒的,但这种化合物实际上是有毒的,那么就没有办法知道哪里出了问题。”唯一的解决办法是确定“化学空间”的区域——包括可能的有机化合物类别——在这些区域,模型有“盲点”,并提前避开它们。要做到这一点,评估该模型的研究人员必须逐一检查数千种化合物的预测结果——这是一项乏味且容易出错的任务。
克服这一重大障碍
“为了帮助这些研究人员,”Sosnin继续说道,“我们开发了交互式图形工具,可以在2D平面上显示化合物,就像地理地图一样。使用颜色,我们以高置信度突出预测错误的化合物,允许用户将它们识别为红点簇。该地图是交互式的,使用户能够调查化学空间并探索关注的区域。”
该方法已通过雌激素受体结合模型得到验证。在对化学空间进行可视化分析后,很明显,该模型对类固醇和多氯联苯等化合物很有效,但对小的非环化合物完全无效,不应将其用于这些化合物。
在这个项目中开发的软件是免费提供给GitHub社区。Sergey Sosnin希望MolCompass能引导化学家和毒理学家更好地理解计算模型的局限性。这项研究是朝着未来迈出的一步,在未来,动物实验不再是必要的,毒理学家唯一的工作场所是电脑桌。
知名企业招聘