通过高阶加权扰动和基于相似性矩阵融合的双通道特征学习来推断微生物与疾病之间的关联
《Biochemical Engineering Journal》:Inferring Microbe–Disease Association via Higher-Order Weighted Perturbation and Dual-Channel Feature Learning Based on Similarity Matrix Fusion
【字体:
大
中
小
】
时间:2025年11月25日
来源:Biochemical Engineering Journal 3.8
编辑推荐:
微生态-疾病关联预测模型HWP-SMFDCFL创新性地融合了高阶加权扰动、相似矩阵融合、双路径矩阵分解及双通道特征学习模块,通过异构牛顿增强机与深度神经网络协同预测,有效解决了数据稀疏性和高阶关系建模难题,在多组实验中显著优于现有方法。
微生物群落与人类健康之间的关系近年来受到了广泛的关注。越来越多的研究表明,许多复杂的疾病都与微生物群落密切相关。因此,识别潜在的微生物-疾病关联对于疾病的诊断、预后和治疗具有重要意义。然而,传统的生物医学实验往往成本高昂、耗时且需要大量人力。为了克服这些挑战,我们提出了一种新的计算模型(HWP-SMFDCFL),用于预测微生物-疾病关联。该模型引入了一种新的相似性矩阵融合算法(SMF),以整合微生物和疾病之间的相似性信息。随后,设计了一种高阶加权扰动(HWP)技术,动态地为不同阶数的关联分配权重,从而全面捕捉高阶关系信息。在此基础上,采用双路径矩阵分解(DPMF)方法来重构原始和高阶关联矩阵,并提取低维线性特征。此外,通过将超图卷积和多层感知机(MLP)整合到一个双通道特征学习模块(DCFL)中,模型能够在多个层次上捕捉微生物-疾病相似性网络中的非线性关系,从而增强特征表示。最后,结合深度神经网络(DNN)和异构牛顿提升机(HNBoost)进行最终预测。实验结果表明,所提出的模型优于六种最先进的预测方法。消融实验和案例研究进一步验证了其有效性和可靠性。HWP-SMFDCFL模型已在GitHub上公开,网址为https://github.com/senliyang/HWP-SMFDCFL。
微生物是结构简单且体积微小的生物体,主要包括细菌、古菌、真菌和病毒等。它们广泛分布于人体的皮肤、口腔、呼吸道和消化道等部位。大多数微生物对人类健康有益,能够促进营养吸收、保护身体免受病原体侵害,并增强代谢能力。例如,研究表明乳酸杆菌和双歧杆菌在调节焦虑、认知、疼痛和抑郁症状方面具有积极作用。然而,微生物群落的失调可能影响免疫和代谢功能,进而导致哮喘、癌症和炎症性肠病等疾病的发生。尽管已有大量证据表明微生物与人类疾病之间存在密切联系,但对微生物如何影响人体健康以及参与疾病发展的全面理解仍然有限。
正如前面所述,微生物群落通过多种机制显著影响人类健康。因此,识别潜在的微生物-疾病关联对于人类健康、临床治疗和药物发现至关重要。换句话说,揭示潜在的微生物-疾病关系具有实际意义和现实需求。进一步探索这些关系不仅有助于理解疾病机制,还为药物开发和精准医学提供了新的解决方案。然而,当前关于微生物-疾病关联的数据仍然不足,无法完全揭示疾病发生机制,这促使研究人员开发新的计算方法来预测潜在的微生物-疾病关联。这些方法主要分为三类:基于网络的方法、基于机器学习的方法和基于深度学习的方法。
基于网络的方法通过构建网络来预测微生物-疾病关联(MDA)。2019年,Fan等人[7]提出了MDPH_HMDA模型,该模型执行了归一化的HeteSim度量算法。模型通过加权计算已知的关联,并整合异质图上的不同路径的HeteSim得分来确定潜在的MDA。Long等人[8]在2019年设计了WMGHMDA模型,该模型通过构建微生物-疾病异质信息网络,利用六种类型的元图来定义路径,并实施了迭代加权元图搜索模型。由于WMGHMDA计算复杂度高且依赖于先验知识进行元路径选择,Luo等人[9]在2020年提出了NTSHMDA模型。该模型基于随机游走和网络拓扑相似性,将每对微生物-疾病关联视为不同的关系层级,并为潜在的MDA预测分配不同的权重。2022年,Guan等人[10]引入了BDHNS方法,该方法利用双向异质MDA网络。尽管这些方法取得了进展,但数据质量和数量的限制导致了MDA预测的准确性和可靠性下降。
基于机器学习的方法也被广泛应用于预测潜在的MDA。2020年,Peng等人提出了LPHMDA模型,该模型通过链接传播对MDA进行排序,但由于缺乏负样本选择和依赖单一网络,该模型存在一定的局限性。同年,Peng等人又提出了RNMFMDA模型,该模型结合了PU学习和重启随机游走来选择负样本,并采用逻辑矩阵分解计算关联概率。2021年,Yan等人利用异质网络和低秩矩阵完成算法开发了MCHMDA模型。Ha等人提出了基于深度神经网络的DWMDA模型和NCMD模型,分别采用DeepWalk和node2vec进行图嵌入,并结合神经协同过滤方法预测MDA。尽管这些模型的性能有所提升,但它们仍然面临稀疏矩阵和预测新微生物与疾病方面的挑战。Liu等人在2023年提出了MNNMDA模型,该模型结合了低秩完成和矩阵核范数最小化。然而,数据质量和泛化能力的限制仍然存在。
近年来,深度学习在MDA预测中展现出良好的前景。GNN、Autoencoder和GAT等模型取得了显著进展。GNN和GAT处理结构化数据,而Autoencoder则用于降维和特征提取。2021年,Long等人提出了GATMDA模型,该模型使用多头图注意力网络学习节点表示,并结合归纳矩阵完成来预测潜在的关联。2022年,Wang等人开发了HNGFL模型,该模型利用GraRep算法学习全局结构信息。2023年,Jiang等人提出了KGNMDA模型,该模型构建了微生物和疾病之间的知识图,以提取嵌入表示。尽管该模型有效地整合了异质数据,但其在层数深度和冷启动问题方面仍存在局限。Liu等人(2025)提出了BANSMDA模型,该模型首先通过整合多种高斯相似性度量和已知的关联构建异质微生物-疾病网络,然后使用基于BAN的自编码器和稀疏自编码器模块学习节点表示。Yu等人(2024)提出了CasMF-GCL模型,这是一种新型的微生物-疾病关联预测模型。该模型采用级联多核融合机制的多层图卷积网络来编码局部和全局特征,并利用多粒度特征和大规模关系增强进行自监督对比学习,以提升性能。Wang等人(2024)提出了M^3HOGAT模型,该模型结合了多视图多模态网络和多尺度特征融合机制。模型构建了微生物-疾病关联网络和多个相似性视图,并使用高阶图注意力网络(HOGAT)来聚合不同阶数的邻居信息。随后,通过多尺度特征融合机制捕捉不同视图下微生物和疾病嵌入之间的相互作用,并采用内积解码器重构关联矩阵。然而,该模型在对未见过的数据进行泛化时仍存在一定的局限。其他模型,如SAELGMDA[23]和DSAERF[24],分别使用稀疏自编码器与LightGBM和RandomForest分类器结合。Peng等人提出的GPUDMDA模型结合了图注意力自编码器、PU学习和深度神经网络。尽管这些模型在预测准确性方面有所提升,但数据稀疏性和泛化能力等挑战仍需进一步研究和改进。
尽管现有的计算方法在预测微生物-疾病关联方面取得了一定的成功,但它们仍然面临诸多局限。大多数方法采用简单的平均融合相似性特征,这可能会忽略不同特征的贡献差异。此外,像GATMDA、KGNMDA、BANSMDA、CasMF-GCL、SAELGMDA和DSAERF等模型忽略了线性特征。为了弥补这些不足,我们提出了一种新的计算模型HWP-SMFDCFL,用于微生物-疾病关联预测。该模型主要结合了双路径矩阵分解的线性特征和双通道特征学习的非线性特征进行预测。具体来说,模型首先基于已知的微生物-疾病关联计算多源相似性特征,然后采用一种新的相似性矩阵融合算法(SMF),该算法考虑了单个节点的贡献,并整合关联信息以捕捉潜在的节点表示和上下游拓扑关系。接下来,使用高阶加权扰动(HWP)技术生成高阶关联矩阵,并通过深度非负矩阵分解(DNMF)进一步重构这些矩阵,随后采用非负矩阵分解(NMF)提取低维线性特征。此外,将超图卷积和多层感知机(MLP)结合的双通道特征学习(DCFL)模块被应用于捕捉微生物-疾病相似性网络中的多层级非线性关系,从而丰富整体的特征表示。最后,模型结合深度神经网络(DNN)和异构牛顿提升机(HNBoost)进行最终预测。模型的整体架构和流程图如图1和图2所示。
我们提出了一种新颖的相似性矩阵融合(SMF)算法,该算法考虑了单个节点的贡献,并整合关联信息以捕捉潜在的节点表示以及上下游拓扑关系。该算法通过综合不同来源的相似性信息,能够更全面地反映微生物和疾病之间的复杂关系。在实际应用中,SMF算法能够有效地提取关键特征,为后续的预测任务提供更丰富的输入信息。
高阶加权扰动(HWP)技术被设计用于动态地为不同阶数的关联分配适应性权重,从而生成能够有效捕捉复杂高阶依赖关系的高阶关联矩阵。HWP技术通过引入扰动机制,模拟了微生物和疾病之间可能存在的多种交互路径,增强了模型对高阶关系的识别能力。此外,该技术能够适应不同数据集的特性,为不同类型的关联提供相应的权重调整,提高了模型的灵活性和鲁棒性。
双路径矩阵分解(DPMF)和双通道特征学习(DCFL)框架被设计用于整合线性和非线性特征,从而提升预测性能。在该框架中,DNMF组件用于重构原始和高阶关联矩阵,NMF则用于提取低维线性特征。同时,通过将超图卷积和多层感知机(MLP)结合到DCFL模块中,模型能够在多个层次上捕捉微生物-疾病相似性网络中的非线性关系,从而丰富整体的特征表示。这种融合策略使得模型能够更全面地理解和表示微生物与疾病之间的复杂关联,提高了预测的准确性和可靠性。
最后,我们采用了一种混合预测策略,将深度神经网络(DNN)和异构牛顿提升机(HNBoost)相结合,用于最终的微生物-疾病关联预测。DNN能够处理复杂的非线性关系,而HNBoost则通过异构数据的特征增强,进一步提升了模型的预测能力。这种组合策略不仅增强了模型的鲁棒性,还提高了其在不同数据集上的泛化能力,为微生物-疾病关联预测提供了更有效的解决方案。
在实验部分,我们使用了整合后的HMDIP数据集,该数据集由HMDAD、Disbiome和Peryton三个数据集组成。HMDAD数据库(http://www.cuilab.cn/hmdad)由Ma等人创建,包含了39种疾病和292种微生物之间483个实验验证的已知关联。在去除重复关联后,获得了450个独特的微生物-疾病关联。Disbiome数据库(https://disbiome.ugent.be/)由Janssens等人发布,收集了8,645个关联。Peryton数据库则提供了额外的微生物-疾病关联信息,使得整合后的数据集更加全面和丰富。
为了评估模型的性能,我们采用了K折交叉验证方法。该方法将数据集划分为k个子集,每个子集大小相近。模型在k次训练中,每次使用k-1个子集作为训练数据,剩余的子集作为测试集。在每次训练后,评估模型的性能,并将所有k次迭代的结果进行平均,作为最终的评估指标。我们基于整合后的HMDIP数据集进行了K折交叉验证,结果表明HWP-SMFDCFL模型在多个评估指标上均优于现有的预测方法。
此外,我们还进行了消融实验,以验证模型各个组件的有效性。消融实验表明,去除SMF、HWP、DPMF或DCFL模块会导致模型性能的下降,说明这些组件对模型的整体表现具有重要贡献。同时,我们还进行了一项案例研究,分析了模型在实际应用中的表现。案例研究表明,HWP-SMFDCFL模型在预测特定微生物与疾病之间的关联时,能够提供更准确和可靠的预测结果,为相关领域的研究和应用提供了有力支持。
在讨论部分,我们指出微生物群落与人类健康和多种疾病的发展密切相关。作为宿主生理的重要调节者,微生物群影响免疫稳态、营养代谢等多个生物过程。微生物群落的失衡可能干扰宿主-微生物信号通路,改变代谢物谱,从而引发慢性炎症,最终导致疾病的发生和发展。因此,识别微生物-疾病关联不仅有助于理解疾病机制,还可能为疾病的预防和治疗提供新的思路。
通过HWP-SMFDCFL模型,我们希望能够更全面地揭示微生物与疾病之间的复杂关系,并为相关领域的研究提供有效的工具。模型结合了多种先进的计算方法,包括相似性矩阵融合、高阶加权扰动、双路径矩阵分解和双通道特征学习,以提高预测的准确性和可靠性。此外,模型采用深度神经网络和异构牛顿提升机进行最终预测,进一步增强了其预测能力。
综上所述,HWP-SMFDCFL模型在微生物-疾病关联预测方面具有重要的应用价值。通过整合线性和非线性特征,模型能够更全面地捕捉微生物和疾病之间的复杂关系,从而提高预测的准确性和可靠性。未来,我们计划进一步优化模型的性能,并探索其在更广泛的应用场景中的潜力。此外,我们还将致力于提升模型的泛化能力,使其能够更好地适应不同的数据集和实际需求。通过不断改进和扩展,HWP-SMFDCFL有望成为微生物-疾病关联预测领域的有力工具,为相关研究和应用提供更坚实的基础。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号