基于多组学整合与可解释机器学习挖掘COVID-19分子特征及其机制研究

【字体: 时间:2025年09月23日 来源:Frontiers in Bioinformatics 3.9

编辑推荐:

  本研究通过整合临床、蛋白质组(Proteomic)和代谢组(Metabolomic)数据,利用多视图机器学习框架与集成方法,从高维数据中提取出12–50个关键生物标志物,构建了稳健的COVID-19诊断特征,模型平衡准确率达89%±5%。研究揭示了干扰素信号、免疫调节及脂质代谢等关键通路,为COVID-19精准诊断与机制解析提供新视角。

  

1 引言

新型冠状病毒肺炎(COVID-19)是由严重急性呼吸综合征冠状病毒2(SARS-CoV-2)引起的疾病,其临床表现具有高度异质性,涵盖感染性、呼吸性和神经性等多类症状。尽管逆转录聚合酶链反应(RT-PCR)和抗原检测已广泛应用于诊断,但这些方法难以全面捕捉疾病的系统性复杂表现,如呼吸衰竭、凝血病变和炎症综合征等。

COVID-19的表型变异反映了潜在分子与代谢通路的多因素紊乱。组学技术作为系统生物学的重要组成部分,为解析宿主-病原体相互作用及疾病机制提供了高通量分析手段。然而,现有研究多局限于少量生物标志物(通常为32至数百个),且普遍采用单一模型,未系统处理类别不平衡问题,限制了模型的稳健性与泛化能力。

本研究基于魁北克COVID-19生物库(BQC19)数据,聚焦蛋白质组与代谢组数据,采用可解释机器学习方法,从多组学数据中挖掘COVID-19特异性分子特征,旨在提升诊断准确性并为机制研究提供新见解。

2 材料与方法

2.1 数据集

数据来源于魁北克COVID-19生物库,包含1400例COVID-19阳性与阴性患者的样本。本研究筛选出478例住院患者,其中COVID-19阳性占84%, symptomatic controls占16%。所有样本均在症状出现后0–50天内采集,并确保蛋白质组和代谢组数据完整无缺失。

代谢组数据包含5400种靶向代测物,经筛选后保留896种具有KEGG或HMDB标识的代谢物;蛋白质组数据包含7200种蛋白质,最终使用5284种已识别蛋白质。最终数据集包括478个样本,代谢组维度为896,蛋白质组为5284。

2.2 多组学特征提取与机器学习流程

研究采用多视图机器学习框架,集成临床、蛋白质组和代谢组数据,通过可解释分类器提取特征重要性。为避免类别不平衡(阳性:阴性=375:103)带来的偏差,采用平衡精度(Balanced Accuracy, BA)作为评估指标,并应用不平衡装袋(Imbalance Bagging, IB)策略提升模型稳健性。

2.2.1 特征相关性计算

提出“特征相关性(Feature Relevance)”指标,基于各分类器的特征重要性加权平均而得,权重为分类器的平衡精度。具体计算公式如下:

rj = ∑c=1C n(sc) × Fc,j

其中n(sc)为分类器c的归一化精度得分,Fc,j为特征j在分类器c中的重要性。

2.2.2 分类器与特征选择

采用多种可解释机器学习算法,包括Set Covering Machine (SCM)、决策树(Decision Tree)、Adaboost、梯度提升(Gradient Boosting)、随机森林(Random Forest)、SamBA与稀疏核机器(SPKM)等。同时引入Lasso、K近邻(KNN)与支持向量机(SVM-RBF)作为基线对比。

通过10次训练/测试划分(80%训练,20%测试)及5折交叉验证进行超参数优化,确保结果稳健性。

2.2.3 火山图分析

采用传统统计方法构建火山图,筛选显著差异特征(Fold Change <0.5 或 >2,p-value < 0.05/6180,经Bonferroni校正),得到10个特征作为Volcano signature,用于与机器学习结果对比。

2.3 通路富集与网络分析

2.3.1 蛋白质组特征分析

使用ConsensusPathDB进行通路富集分析(Pathway Enrichment Analysis, PEA),设定p-value阈值<0.01并进行错误发现率(FDR)校正。通过NetworkAnalyst和Cytoscape构建蛋白质互作网络,识别关键生物过程与通路。

2.3.2 代谢组特征分析

利用MetaboAnalyst 5.0进行过表征分析(ORA)与通路拓扑分析(PT),使用KEGG人类通路库与超几何检验。通过STITCH工具分析蛋白质-代谢物相互作用,揭示功能关联。

3 结果

3.1 全特征分类器性能

在全部特征上,分类器在蛋白质组、代谢组与多组学数据上的平衡精度分别为87%(最佳,IB-Adaboost)至50%(最低,SVM-RBF)。蛋白质组数据表现最优,代谢组仍具显著信息量(最高BA=79%)。多组学整合进一步提升分类性能。

3.2 特征提取与签名构建

通过特征相关性排序,设定阈值筛选出:

  • 代谢组签名:17个特征(阈值6.5×10?4

  • 蛋白质组签名:19个特征(阈值9×10?4

  • 多组学签名:29个特征(阈值1.51×10?3

同时,火山图分析得到10个特征(Volcano signature)。

3.3 签名性能验证

在签名特征上重训练分类器,多组学签名表现最佳,平衡精度显著高于全特征集与Volcano签名。Volcano签名精度最高为84%,表明机器学习方法能捕捉特征间交互作用,提升分类效能。

3.4 通路与网络分析结果

3.4.1 蛋白质组签名功能解析

蛋白质签名包括MX1、ISG15、LAG3、IFIT3、TNXB等关键蛋白。富集分析显示这些蛋白显著关联干扰素信号通路(如ISG15抗病毒机制、干扰素信号)、SARS-CoV-2先天免疫逃逸及细胞特异性免疫应答。网络分析突出ISG15为核心节点,与MX1、IFIT3、DDX58等相互作用,并涉及IRF-1、IRF-7、STAT1等转录因子,表明签名强烈反映病毒感染后的干扰素应答。

3.4.2 代谢组签名功能解析

代谢组签名包含12种代谢物与5种脂质,其中 ribothymidine、azithromycin、α-ketobutyric acid、L-malic acid等变化显著。通路分析显示签名关联嘧啶代谢、色氨酸-犬尿氨酸通路(Kynurenine pathway)、尼古丁与尼古酰胺代谢等。网络分析识别出L-犬尿氨酸(KYN)为核心代谢物,涉及IDO5、AADAT、CCBL2B等酶。多胺代谢物(如spermidine)被识别出可能促进冠状病毒复制。

4 讨论

本研究通过多组学整合与可解释机器学习,成功提取出小而稳健的COVID-19分子签名,显著提升分类性能并增强模型泛化能力。签名特征与COVID-19已知病理机制高度一致:蛋白质签名突出干扰素应答与免疫调节(如MX1、ISG15、CXCL10),代谢签名反映脂质代谢紊乱、氨基酸代谢重编程与能量代谢适应。

多组学签名中蛋白质特征占比更高,印证蛋白质组在捕获免疫与炎症信号中的优势。代谢组则提供互补信息,揭示宿主代谢应激与病毒-宿主互作的下游效应。签名中如凝血因子F11、C1QTNF1、APCS等与凝血病变、内皮损伤密切关联,符合COVID-19重症表现。

本研究也存在一定局限:样本来源于单中心队列,对照组存在异质性;签名基于相关性分析,未来可引入因果推断方法;此外,Azithromycin等特征反映药物治疗干扰而非生物机制,需在临床解释中审慎处理。

该研究为COVID-19精准诊断与分子分型提供了新工具,签名特征有望用于开发临床诊断面板或探索长新冠(Long COVID)的分子机制。未来需通过多中心、前瞻性研究进行验证,并推动转化应用。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号