利用机器学习方法预测结核病中的药物耐药性

《Computational and Theoretical Chemistry》:Machine Learning Approaches to Predict Drug Resistance in Tuberculosis

【字体: 时间:2025年10月03日 来源:Computational and Theoretical Chemistry 2.8

编辑推荐:

  结核分枝杆菌耐药性预测研究利用机器学习模型整合序列和结构特征,通过袋装、堆叠和投票分类器分析gyrA、gyrB、inhA、katG、rpoB和pncA六个基因的耐药预测效果,最佳模型对rpoB和pncA的准确率分别达95.6%和89.3%,但受限于小样本数据,未来需扩大临床数据集和优化特征工程。

  
A.T Subalakshmi | Arundhati Mahesh

摘要

结核病(TB)仍然是一个全球性的健康危机,2023年有1080万新病例和125万人死亡。耐药性结核病的出现使治疗变得更加复杂,而传统的诊断方法在速度、成本和准确性方面存在局限性。本研究探讨了利用机器学习(ML)模型通过基因组变异来预测耐药性的方法,提供了一种更快、更全面的解决方案。
我们汇编了一个包含来自TBDReaMDB、GMTV、WHO和CARD等数据库的与耐药性表型相关的变异和突变的综合数据集。对于每个突变,我们提取了基于序列的特征(例如,理化性质变化、Provean评分)和基于结构的特征(例如,疏水性、灵活性、可接触表面积)。我们评估了集成ML模型(堆叠、装袋和投票分类器)预测对关键抗结核药物(氟喹诺酮类、利福平、异烟肼和吡嗪酰胺)耐药性的能力。
研究结果表明,这些模型在六个结核病耐药基因(gyrA、gyrB、inhA、katG、rpoB、pncA)上的表现各不相同,准确率从66%(gyrA堆叠)到95.6%(rpoB投票)不等,ROC曲线下面积从0.69(gyrA装袋)到0.92(pncA堆叠)不等。装袋模型在gyrA、gyrB和rpoB上的表现最佳,而堆叠分类器在inhA上的表现也较好。投票分类器在katG和pncA基因上的表现最为出色。选择在这两个基因上表现最佳的模型,强调了针对特定基因的策略以最大化耐药性预测的准确性。
本研究表明,基于综合特征的基因特异性集成模型可以提供对结核分枝杆菌耐药性的有价值预测。尽管结果很有前景,但这些发现仍处于概念验证阶段,在临床应用之前需要在更大、更多样化的临床数据集上进行进一步验证。

部分摘录

引言

结核病(TB)是由结核分枝杆菌引起的一种传染病,主要影响肺部。根据世界卫生组织2023年的数据,该疾病仍然是全球主要的健康威胁,估计有1080万新病例和125万人死亡。耐药菌株的出现,包括多重耐药结核病(MDR-TB)和广泛耐药结核病(XDR-TB),进一步增加了控制结核病的难度,导致治疗时间延长且费用增加。

数据收集与预处理

本研究的数据来自公开的结核病基因组数据库,包括GMTV、TBDReaMDB、WHO Catalogue和CARD。这些数据库包含了单核苷酸变异和突变及其相关的表型耐药性信息。由于当前技术限制,GMTV和TBDReaMDB无法直接访问,因此这些数据库中的突变数据来自Jamal等人(2020年)的研究。WHO Catalogue中的突变数据来自//www.who.int/publications/i/item/9789240082410

结果

准确率量化了正确分类样本的比例。精确度评估了阳性预测的准确性,而召回率则检验了检测所有阳性病例的能力。F1分数则在精确度和召回率之间取得了平衡。详见表3,了解每个分类器和类别的准确率、精确度和召回率以及F1分数。
ROC(接收者操作特征)曲线是分类器区分不同类别能力的图形表示。

讨论

本研究评估并比较了三种集成学习技术(投票、装袋和堆叠分类器)在结核分枝杆菌的六个关键耐药相关基因(gyrA、gyrB、inhA、katG、pncA和rpoB)上的表现。这些基因对于识别对氟喹诺酮类、异烟肼、吡嗪酰胺和利福平的耐药性至关重要,因此准确且通用的模型对于快速诊断和治疗计划非常重要。
本研究使用了基于序列的特征

局限性

本研究的局限性在于每个基因的数据集规模较小且不平衡,某些耐药性标签(如katG和pncA)是基于ΔΔG预测而非直接表型验证得出的。此外,依赖的数据库中部分数据已经过时,这也可能限制了结果的多样性和泛化能力。模型评估采用了80:20的分割方式,并且没有进行正式的统计测试来比较不同分类器,因此应对结果进行适当解释。

结论

本研究展示了集成机器学习算法在预测结核分枝杆菌六个关键基因耐药性方面的有效性。通过比较投票、装袋和堆叠分类器,发现每种技术根据基因集的不同具有相对优势。在耐药模式明确的基因(如gyrA和rpoB)中,装袋分类器的效果最好;而在katG和pncA基因上,投票分类器的表现更为出色。

未来方向

未来的研究应通过扩展针对不同结核分枝杆菌谱系的突变数据集来提高耐药性预测模型的稳健性和临床实用性。扩大数据集将有助于提高分类器的泛化能力,并识别出罕见但具有临床意义的突变。此外,通过整合结构、功能和进化基因信息来改进特征工程,可能会显著提升模型的性能。

CRediT作者贡献声明

A.T Subalakshmi:方法论、数据整理。Arundhati Mahesh:撰写、审稿与编辑、指导。

关于写作过程中使用生成式AI和AI辅助技术的声明

在准备本稿时,作者使用了ChatGPT和Grok工具来提高手稿的清晰度和连贯性。使用这些工具后,作者根据需要对内容进行了审阅和编辑,并对发表文章的内容承担全部责任。

利益冲突声明

作者声明没有已知的财务利益冲突或个人关系可能影响本文的研究结果。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号