通过机器学习和分子对接加速VOC-OBP相互作用筛选:面向蛾类害虫的半化学物质发现
《Computational Biology and Chemistry》:Accelerating VOC-OBP interaction screening via machine learning and molecular docking: Towards semiochemicals discovery for moth pests
【字体:
大
中
小
】
时间:2025年11月23日
来源:Computational Biology and Chemistry 3.1
编辑推荐:
本研究提出基于机器学习的VOCs与甲虫OBPs亲和力预测方法,评估了LightGBM、XGBoost、SVM等模型的性能。结果显示LightGBM最优(R2=0.7101,RMSE=0.2979),验证了集成模型在捕捉复杂非线性关系中的优势,为害虫管理中的信息素开发提供高效工具。
这项研究聚焦于利用机器学习技术预测挥发性有机化合物(VOCs)与鳞翅目昆虫中的一类嗅觉结合蛋白(OBPs)之间的结合亲和力。这一目标旨在加速分子筛选过程,减少实验工作的负担。研究团队采用了一种多样化的方法,评估了多种回归模型,包括集成方法(如LightGBM、XGBoost、梯度提升和随机森林)、基于核的技巧(如支持向量回归器)、神经网络(如卷积神经网络)以及贝叶斯线性模型。通过对比这些模型的性能,研究者发现LightGBM回归器在预测准确性和误差最小化方面表现最佳,其R2值达到0.7101,均方根误差(RMSE)为0.2979,平均绝对误差(MAE)为0.2200,显著优于其他方法。
这一成果展示了基于集成的提升算法在该任务中的优越性,能够有效捕捉数据中的复杂、非线性关系。相比之下,贝叶斯岭回归器表现最弱,突显了线性模型在此类问题中的局限性。研究不仅强调了人工智能在分子发现流程中的潜力,还为未来研究提供了基础,特别是在半化学物质(semiochemicals)的发现方面。这些半化学物质是用于监测和控制害虫的生物活性分子,因此,提高其预测的准确性对于害虫管理具有重要意义。
鳞翅目昆虫是世界上分布最广、种类最多的昆虫类群之一,包含超过16万种蝴蝶和蛾类。其中,某些种类被认为是农业害虫,对作物如谷物、棉花、咖啡和水果造成严重的经济损失。因此,传统的害虫控制方法通常依赖于杀虫剂,这是目前最经济且广泛应用的手段。然而,随着对害虫控制方法的深入研究,人们逐渐认识到,仅依靠杀虫剂并不能完全解决问题,尤其是在长期的害虫管理中,杀虫剂的耐药性问题日益突出。因此,害虫管理策略逐渐转向综合防治(integrated pest management, IPM),结合杀虫剂使用与自然产生的化学物质,如半化学物质,以改变害虫的行为。这种综合防治策略已成为许多鳞翅目害虫管理的重要手段,例如苹果小卷叶蛾(Cydia pomonella)、小菜蛾(Plutella xylostella)、葡萄小褐夜蛾(Lobesia botrana)和梨小食心虫(Grapholita molesta)等。
半化学物质作为影响昆虫行为的化学信号分子,其识别和作用机制一直是昆虫学和化学研究的重要方向。研究表明,昆虫的嗅觉系统主要位于触角,其中多种蛋白质参与半化学物质的识别和信号传导过程。嗅觉结合蛋白(OBPs)是这一过程中至关重要的分子之一,它们负责将半化学物质从空气中运输到昆虫的嗅觉受体。OBPs在鳞翅目昆虫中广泛存在,数量通常在40到60个基因之间,其中两种亚类——信息素结合蛋白(PBPs)和一般嗅觉结合蛋白(GOBPs)——在不同物种中高度保守。PBPs和GOBPs的结构通常包含六个α-螺旋,由三个二硫键连接,形成一个球状结构,这种结构使其能够有效地结合和运输挥发性分子。
为了更深入地理解OBPs与VOCs之间的相互作用,研究团队探讨了这些蛋白质的三维结构如何影响结合亲和力。近年来,AlphaFold等深度学习技术的出现,使得预测蛋白质的三维结构成为可能,这为研究OBPs与VOCs之间的相互作用提供了新的工具。AlphaFold通过利用大量蛋白质序列数据,构建出高质量的蛋白质三维结构模型,为后续的分子对接和结合亲和力预测奠定了基础。在此基础上,研究团队利用机器学习方法,对OBPs与VOCs的结合亲和力进行了建模,探索了化学、蛋白质和功能特征之间的关系。
在实验过程中,研究团队采取了八个主要步骤,包括数据集的收集和筛选、分子对接的运行、描述符的搜索、数据集的创建、数据预处理、模型的选择、优化以及最终的评估。这些步骤确保了研究的系统性和科学性,同时也为未来的研究提供了清晰的框架。通过分子对接技术,研究团队能够模拟VOCs与OBPs之间的相互作用,从而获得结合常数(K_i)等关键参数。K_i是衡量VOCs与OBPs结合能力的重要指标,其数值越低,表示结合越强。因此,K_i的获取对于理解VOCs与OBPs之间的相互作用至关重要。
在模型构建过程中,研究团队采用了多种机器学习方法,并通过测试数据集(占数据集的20%)评估模型的性能。为了确保模型的稳健性,研究还进行了10折交叉验证。在评估过程中,R2、RMSE和MAE等指标被用于衡量模型的预测能力。结果表明,LightGBM回归器在这些指标上表现最佳,不仅在预测准确度上优于其他模型,而且在误差控制方面也更为有效。这一发现表明,集成方法,尤其是LightGBM和XGBoost,能够更好地捕捉数据中的复杂关系,从而提高预测的可靠性。
然而,研究团队也指出,当前的方法并未考虑蛋白质和VOCs的三维结构信息,如结合自由能等衍生参数。因此,未来的研究将致力于扩展训练数据集,并优化模型的结构,以提高预测的准确性和泛化能力。此外,研究还强调了三维描述符在模型构建中的重要性,认为这些信息能够更全面地反映蛋白质和VOCs之间的相互作用机制,从而提升模型的预测性能。
在讨论部分,研究团队指出,尽管分子对接技术在药物发现领域已被广泛应用,但在昆虫害虫控制方面,其应用仍处于初级阶段。早期的研究主要集中在如何通过分子对接技术分析VOCs与OBPs结合位点的相互作用,而近年来,随着AlphaFold等工具的出现,这一技术的应用范围和深度得到了显著拓展。研究团队认为,结合三维结构信息的机器学习模型将有助于更精确地预测OBPs与VOCs之间的结合亲和力,从而推动半化学物质的发现和应用。
综上所述,这项研究不仅验证了机器学习在预测OBPs与VOCs结合亲和力方面的潜力,还为未来的害虫管理提供了新的思路和工具。通过构建和优化模型,研究团队希望能够提高半化学物质的筛选效率,从而为农业害虫的可持续控制提供支持。同时,研究也强调了三维结构信息在模型构建中的重要性,认为这将是未来研究的重要方向。此外,研究团队还希望进一步扩展数据集,以涵盖更多种类的VOCs和OBPs,从而提高模型的泛化能力和适用范围。这些努力不仅有助于推动昆虫学和化学研究的发展,也将对农业生产和生态保护产生积极影响。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号