
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于多模态信息融合的药物-靶标相互作用预测方法MIF-DTI的创新研究
【字体: 大 中 小 】 时间:2025年09月16日 来源:Briefings in Bioinformatics 7.7
编辑推荐:
为解决药物-靶标相互作用(DTI)预测中单源编码局限性及多模态信息融合不足的问题,Jiehong Shan等提出MIF-DTI方法,通过序列编码模块提取药物SMILES序列与靶标氨基酸序列的1D特征,结合图编码模块的双视图表征学习捕获2D拓扑结构,最终通过协同注意力机制实现多模态信息融合。实验表明,该方法在三个公开数据集上AUROC和AUPR指标均超越现有技术,其集成版本MIF-DTI-B进一步提升了预测稳定性,为药物发现与重定位提供了可靠计算工具。
药物研发的核心挑战之一是如何高效预测药物与靶标蛋白的相互作用(DTI)。传统生化实验方法虽然可靠,但耗时长、成本高,难以应对大规模数据需求。近年来,计算方法逐渐成为主流,但现有模型多依赖单一数据模态(如1D序列或2D分子图),且融合策略简单,导致预测精度受限。例如,基于序列的模型(如DeepDTA)难以捕捉空间结构信息,而基于图的模型(如PSICHIC)对数据量要求较高。这种模态割裂现象严重制约了DTI预测的准确性与泛化能力。
为此,中国科学技术大学Haoran Zheng团队在《Briefings in Bioinformatics》发表研究,提出MIF-DTI框架,首次将双视图表征学习与决策导向的多模态融合相结合。该工作通过三个关键技术突破:(1)构建药物分层分子图和靶标接触图的2D结构表征;(2)设计序列与图编码模块的双视图交互机制;(3)开发基于协同注意力的跨模态评分矩阵。实验证明,MIF-DTI在DrugBank数据集上AUROC达92.77%,较最优基线提升3.06%,其集成版本MIF-DTI-B更将性能推升至94.75%。
关键技术方法
研究采用DrugBank、BioSNAP和Davis三个公开数据集,通过RDKit和ESM-2模型分别生成药物的分层分子图(含原子、子结构和分子三级节点)和靶标的2D接触图(保留接触值>0.5的边)。序列编码模块使用多核1D CNN(药物核尺寸4/6/8,靶标4/8/12)和五头交叉注意力;图编码模块采用两层GAT(输出维度100D)和SAGPooling;解码模块通过协同注意力矩阵计算交互评分,最终经全连接层输出概率。集成模型MIF-DTI-B采用五折交叉验证策略生成。
研究结果
基准测试表现
在DrugBank数据集上,MIF-DTI的准确率(85.46%)和AUPR(92.95%)均显著优于MCANet(82.60%/90.45%)与PSICHIC(83.59%/89.94%)。其集成版本MIF-DTI-B进一步将AUROC提升至94.75%,较MCANet-B高2.64%。
跨数据集验证
在训练集(DrugBank+BioSNAP)与测试集(Davis)分布差异显著的严苛设定下,MIF-DTI-B仍保持66.68%准确率,证明其强泛化能力。
消融实验
移除图编码模块(wo-2D-encoder)导致BioSNAP数据集AUROC下降4.48%,而替换协同注意力(with-attention)使AUPR降低2.82%,验证了多模态融合策略的核心价值。
案例验证
对未参与训练的奥氟沙星(Ofloxacin)和靶标P11388的预测准确率达91.7%,证实模型对新实体的推断能力。
结论与意义
该研究通过创新性多模态融合架构解决了DTI预测中的模态割裂问题。其技术突破体现在三方面:(1)双视图表征机制同步捕获序列局部特征与拓扑全局关系;(2)协同注意力矩阵实现模态间深度交互,优于传统的特征拼接或交叉注意力;(3)分层图结构编码有效平衡计算效率与信息完整性。实验证明,该方法在数据充足时性能上限显著提升(如DrugBank的AUPR 95.02%),在数据稀缺时(如Davis)仍保持稳健表现。
这项工作为药物发现提供了新范式:一方面,MIF-DTI-B可直接用于虚拟筛选,降低实验验证成本;另一方面,其多模态融合框架可扩展至3D结构或知识图谱的整合。作者在讨论中指出,未来可探索将ESM-2生成的接触图与AlphaFold预测结构结合,进一步提升对稀有靶标的预测能力。这项研究标志着计算药物研发从单模态分析迈向智能融合的新阶段。
生物通微信公众号
知名企业招聘