微生物组-转录组-组织学三联分析可提升多种癌症患者的生存风险分层能力

《Computational and Theoretical Chemistry》:Microbiome-transcriptome-histology triad enhances survival risk stratification in multiple cancers

【字体: 时间:2025年10月03日 来源:Computational and Theoretical Chemistry 2.8

编辑推荐:

  结核分枝杆菌耐药基因预测研究采用集成机器学习模型分析序列和结构特征,发现不同模型(投票、袋装、堆叠)在特定基因(gyrA、gyrB、inhA、katG、pncA、rpoB)的耐药性预测中表现差异,为快速诊断提供新方法,但需更大样本验证。

  
A.T Subalakshmi|Arundhati Mahesh
生物信息学系,斯里拉玛昌德拉高等教育与研究所,波鲁尔,金奈,泰米尔纳德邦 600116

摘要

结核病(TB)仍然是一个全球性的健康危机,2023年有1080万新病例和125万死亡病例。耐药性结核病的出现使治疗变得更加复杂,而传统的诊断方法在速度、成本和准确性方面存在局限性。本研究探讨了利用机器学习(ML)模型从基因组变异中预测耐药性的方法,提供了一种更快、更全面的解决方案。
我们收集了一个包含来自TBDReaMDB、GMTV、WHO和CARD等数据库的与耐药表型相关的变异和突变的综合数据集。对于每个突变,我们提取了基于序列的特征(例如,物理化学性质变化、Provean评分)和基于结构的特征(例如,疏水性、灵活性、可接触表面积)。我们评估了集成ML模型(堆叠、装袋和投票分类器)预测关键抗结核药物(氟喹诺酮类、利福平、异烟肼和吡嗪酰胺)耐药性的能力。
实验结果表明,这些模型在六个结核病耐药基因(gyrA、gyrB、inhA、katG、rpoB、pncA)上的表现各不相同,准确率从66%(gyrA堆叠)到95.6%(rpoB投票)不等,ROC曲线下面积从0.69(gyrA装袋)到0.92(pncA堆叠)不等。装袋模型在gyrA、gyrB和rpoB上的表现最佳,而堆叠分类器在inhA上的表现也较好。投票分类器在katG和pncA基因上的表现最为突出。选择表现最佳的模型强调了针对特定基因的策略对于提高耐药性预测效果的重要性。
本研究表明,由全面特征集支持的特定基因集成模型能够为结核分枝杆菌的耐药性提供有价值的预测。尽管结果令人鼓舞,但这些发现仍处于概念验证阶段,在临床应用之前还需要在更大、更多样化的临床数据集上进行进一步验证。

部分内容摘录

引言

结核病(TB)是由结核分枝杆菌引起的一种传染病,主要影响肺部。根据世界卫生组织(2023年数据),2023年全球新增病例约为1080万例,死亡病例约为125万例。耐药菌株的出现,包括多重耐药结核病(MDR-TB)和广泛耐药结核病(XDR-TB),进一步增加了控制结核病的难度,导致治疗时间延长且费用增加。

数据收集与预处理

本研究的数据来自公开的结核病基因组数据库,包括GMTV、TBDReaMDB、WHO Catalogue和CARD。这些数据库包含了单核苷酸变异和突变及其相关的表型耐药性信息。由于目前无法直接访问GMTV和TBDReaMDB,因此这些数据库中的突变信息来自Jamal等人(2020年)的研究。WHO Catalogue中的突变数据来自//www.who.int/publications/i/item/9789240082410

结果

准确率表示正确分类样本的比例。精确度评估阳性预测的准确性,而召回率则检验检测所有阳性病例的能力。F1分数则在精确度和召回率之间取得了平衡。详见表3,其中列出了每种分类器和各类别的准确率、精确度和召回率数值。
ROC(接收者操作特征)曲线是分类器区分不同类别能力的图形表示。

讨论

本研究评估并比较了三种集成学习技术(投票、装袋和堆叠分类器)在结核分枝杆菌的六个关键耐药相关基因(gyrA、gyrB、inhA、katG、pncA和rpoB)上的表现。这些基因对于识别对氟喹诺酮类、异烟肼、吡嗪酰胺和利福平的耐药性至关重要,因此准确且泛化的模型对于快速诊断和治疗计划至关重要。
本研究使用了基于序列的特征

局限性

本研究的局限性在于每个基因可用的数据集规模较小且不平衡,某些耐药性标签(如katG和pncA)是基于ΔΔG预测而非直接表型验证得出的。此外,依赖于一些过时的整理数据库也可能限制数据的多样性和泛化能力。模型评估采用了80:20的分割方式,并未进行正式的统计测试来比较不同分类器,因此结果需要谨慎解读。

结论

本研究展示了集成机器学习算法在预测结核分枝杆菌六个关键基因耐药性方面的有效性。通过比较投票、装袋和堆叠分类器,发现每种技术根据基因集的不同具有各自的优缺点。在耐药模式明确的基因(如gyrA和rpoB)中,装袋模型表现最佳;而在katG和pncA基因中,投票分类器的表现更为出色。

未来展望

未来的研究应通过扩展不同结核分枝杆菌谱系的突变数据集来提高耐药性预测模型的鲁棒性和临床实用性。扩大数据集将有助于提高分类器的泛化能力,并识别出罕见但具有临床意义的突变。此外,通过整合结构、功能和进化基因信息来改进特征工程也有助于进一步提升模型性能。

作者贡献声明

A.T Subalakshmi:方法论设计、数据整理。Arundhati Mahesh:撰写、审稿与编辑、指导。

写作过程中使用生成式AI和AI辅助技术的声明

在准备本稿时,作者使用了ChatGPT和Grok工具来提高文章的清晰度和连贯性。使用这些工具后,作者对内容进行了必要的审查和编辑,并对发表文章的内容负全责。

利益冲突声明

作者声明不存在可能影响本文研究结果的已知财务利益或个人关系。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号