GENEOnet:基于群等变非扩张算子(GENEO)的蛋白质结合口袋检测突破性方法

【字体: 时间:2025年10月04日 来源:Scientific Reports 3.9

编辑推荐:

  为解决蛋白质结合口袋精准检测难题,研究团队开发了基于群等变非扩张算子(GENEO)的机器学习模型GENEOnet。该模型通过整合几何与物理化学特性,仅需200个训练样本即可实现卓越性能,在PDBbind测试集上H1得分达0.764,超越现有主流方法。其参数可解释性强且计算效率高,为结构虚拟筛选提供了新范式。

  
在药物发现领域,准确识别蛋白质结合口袋是结构基虚拟筛选成功的关键。传统方法如分子对接(molecular docking)严重依赖结合口袋的精确界定,而盲对接(blind docking)由于搜索空间过大往往效果不佳。虽然共结晶结构和点突变研究能提供结合位点信息,但当实验数据缺失时,尤其是针对变构位点的识别,仍存在巨大挑战。现有算法包括基于几何空腔探测的POCKET、CAVIAR,以及基于机器学习的P2Rank、DeepSite等,但大多面临参数复杂、训练数据需求大、可解释性弱等问题。
针对这些痛点,由意大利米兰大学、比萨大学、米兰理工大学及Dompé制药公司等机构组成的研究团队在《Scientific Reports》发表了创新性研究成果。他们开发了GENEOnet(Group Equivariant Non-Expansive Operators network),一种基于群等变非扩张算子(GENEO)的机器学习模型,专门用于 volumetric蛋白质口袋检测。该模型巧妙地将先验化学知识与数学原理相结合,通过仅17个可学习参数实现了卓越的性能,且对旋转和平移变换具有固有不变性,极大提升了模型的鲁棒性和可解释性。
研究采用的关键技术方法主要包括:1)从PDBbind v.2020数据库和RCSB PDB中构建包含>4万蛋白质复合物的训练(TRAIN,200个)、验证(BINDVAL,3073个)及测试集(BINDTEST,6854个;BANK,28382个),并严格控制序列同源性<80%以避免偏差;2)通过自主研发的GENEOprep软件将蛋白质空腔转化为3D体素网格,并计算8个反映几何物理化学特性的通道函数(如疏水性、氢键供体/受体等);3)构建基于卷积核的GENEO层实现等变非扩张变换,通过凸组合生成口袋似然图;4)采用结合重叠体积与正则化项的损失函数进行优化;5)通过连通分量分析和评分排序输出最终口袋预测。
Pocket identification and ranking
实验结果显示,在BINDTEST和BANK测试集上,GENEOnet的Hn系数(顶级口袋正确识别率)分别达到0.764和0.714,显著优于P2Rank(0.702/0.669)、DeepPocket(0.658/0.631)等方法。
**
Overlap analysis
重叠分析表明GENEOnet预测口袋与真实配体空间重叠度最高,且失败率(零重叠案例)最低,验证了其体积包容性的优势。
Distance metrics
在距离指标DCA/DCC评估中,GENEOnet虽未全面领先,但在DCA指标上随阈值增大快速提升,反映出其对非凸形状口袋的适应性优势。
**
Equivariance and non-expansivity combined effect
通过对称蛋白2QWE的案例证明,GENEOnet凭借等变特性准确识别了四个对称口袋,体现了模型对几何变换的稳定性。
**
Ablation study
消融实验证实:仅当同时具备等变性与非扩张性(E-NE)时,模型才能有效学习且避免过拟合,而非等变模型(NE-NE/NE-E)均出现训练失败或过拟合现象。
**
Structural analysis of ABL1 Kinase
针对ABL1激酶多种构象的案例研究显示,GENEOnet预测的口袋与实验位点高度一致,尤其在活性构象中发现了超出已知配体占据区域的潜在可开发空间,为增强配体选择性提供了新思路。
Computational time evaluation
计算效率分析表明,GENEOnet在中小型蛋白质(原子数<5000)处理速度与CAVIAR相当,且显著快于DeepPocket等深度学习方案,其推理阶段效率优于随机森林等传统方法。
研究
研究结论强调,GENEOnet通过数学原理与领域知识的深度融合,实现了用极简参数达到最优性能的突破。其等变特性保障了预测的几何鲁棒性,非扩张性确保了模型对微小结构扰动的稳定性,而仅需200训练样本的高效学习能力大幅降低了计算成本。该模型已集成至Exscalate药物研发平台(https://geneonet.exscalate.eu),为全球科研人员提供免费网络服务。这项研究不仅推动了结合口袋检测技术的发展,更为可解释人工智能(XAI)在生命科学领域的应用提供了范式转移——证明通过精心设计的数学约束,可实现比黑箱模型更优的性能与透明度。未来工作将聚焦于子空腔识别算法优化与混合专家系统开发,进一步拓展其在多靶点药物设计中的应用潜力。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号