基于粪便挥发性有机物谱预测结直肠癌的新算法研究

【字体: 时间:2025年09月27日 来源:Computers in Biology and Medicine 6.3

编辑推荐:

  本刊推荐:为解决结直肠癌(CRC)传统诊断方法侵入性强、假阳性率高的问题,研究人员开发了一种基于热脱附-气相色谱-质谱(TD-GC-MS)和新型算法的非侵入性诊断方法。该研究通过分析粪便挥发性有机化合物(VOCs)谱,构建了能区分健康人群、结直肠腺瘤和癌症患者的诊断模型,验证灵敏度达74-68%,特异性达58-52%,显著减少不必要的结肠镜检查,为CRC早期筛查提供了创新性解决方案。

  
在全球范围内,结直肠癌(Colorectal Cancer, CRC)正成为日益严重的健康威胁。据预测,到2030年全球将新增220万病例并导致110万人死亡,这种疾病的高发病率和死亡率使得早期诊断技术成为临床实践的迫切需求。目前结肠镜检查虽作为金标准,但其侵入性、高成本和时间消耗等局限性限制了大规模筛查应用。粪便免疫化学测试(FIT)作为非侵入性替代方案,虽已广泛应用,却存在灵敏度变异大、假阳性率高等问题,导致大量不必要的结肠镜检查。
在此背景下,挥发性有机化合物(Volatile Organic Compounds, VOCs)分析技术为CRC诊断带来了新的曙光。VOCs是低沸点碳氢化合物,可由病变组织释放并通过生物样本(如呼吸、尿液和粪便)检测。研究表明,VOCs与微生物组组成密切相关,这使其在胃肠道疾病早期检测中展现出巨大潜力。尽管已有研究报道VOCs分析对CRC检测具有高灵敏度(0.86)和特异性(0.90),但该领域仍面临方法学变异大、标准化不足和验证有限等挑战。
为解决这些难题,Laura Ripoll等研究人员在《Computers in Biology and Medicine》发表了创新性研究成果。该团队开发了一种基于粪便VOCs分析的新型算法,通过热脱附-气相色谱-质谱(TD-GC-MS)技术结合机器学习方法,实现了对健康个体、结直肠腺瘤和癌症患者的准确区分。
研究采用横断面研究设计,样本来自西班牙阿利坎特大学总医院的CRC筛查项目。共纳入147例参与者,包括58例CRC患者(分期I-IV期)、41例腺瘤患者和48例结肠镜检查正常者。研究人员使用磁性石墨烯氧化物(MGO)作为吸附剂,通过磁性顶空吸附萃取技术提取粪便VOCs,随后采用TD-GC-MS进行分析。关键技术创新在于开发了基于化合物出现频率的机器学习算法,通过计算每个化合物在癌症和健康人群中的出现概率差异(β值)来构建诊断模型。
研究方法的核心是通过分析GC-MS数据中的化合物名称(而非峰高或峰面积等定量指标),计算各化合物在癌症和健康样本中的出现频率。算法首先识别所有化合物,然后计算各化合物在癌症组(PC)和健康组(PH)的出现概率,接着通过β函数(β(ni) = (PC(ni)-PH(ni))/(PC(ni)+PH(ni)))评估每个化合物的诊断价值。最终通过综合评分(βX = (1/Npeaks)Σtiβ(ni))对未知样本进行分类。
3.1. Analysis of GC-MS data variables
研究发现,传统基于p-甲酚、1H-吲哚和3(4H)-二苯并呋喃酮等单一标志物定量的方法存在较大变异度,可能受饮食、样本异质性等因素影响。因此研究选择专注于化合物出现频率这一更稳定的指标,设定丰度 cutoff值为0.1以排除统计不显著的峰。
3.2. Raw algorithm description
算法基于化合物出现频率的差异构建诊断模型,通过计算每个化合物的β值来评估其与疾病状态的相关性。β值大于0提示癌症,小于0提示健康状态。
3.3. Algorithm application before optimization and validation
初步应用显示算法能实现健康与癌症患者的100%分离,腺瘤患者分布介于两者之间,展现出卓越的分类潜力。
3.4. Optimization
通过系统优化,确定最佳概率差异阈值|PC-PH|为5%,决策边界βcut为0.0。低于6%的阈值会导致过拟合,而5%代表了饱和机制外的最佳平衡点。
3.5. Validation
经过20次独立训练-测试循环验证,算法显示灵敏度74-68%,特异性58-52%,准确率66-62%。研究发现在0-6分钟保留时间范围内,健康个体标志物(如丁酸、己酸)更多,而CRC组在6分钟后标志物(如十四烷酸、十五烷、1H-吲哚)占主导。
3.6. Application to adenoma patients
对41例腺瘤患者的验证显示灵敏度54-50%,虽低于癌症检测但仍能减少近50%的不必要结肠镜检查。
研究还提供了详细的化合物概率表(Table 3),识别出多个与CRC相关的生物标志物。其中,二甲基二硫醚、十四烷酸等已被确认为癌症标志物;短链脂肪酸(SCFAs)如丁酸、己酸和丙酸以及3,4-二羟基扁桃酸(DHMA)等具有显著抗氧化潜力;同时还发现了苯异氰化物、1-氯十二烷等新型潜在标志物。
讨论部分指出,SCFAs由肠道微生物通过膳食纤维发酵产生,在调节炎症、免疫反应和微生物-肠-脑通讯等生理过程中起关键作用。Firmicutes主要合成丁酸,Bacteroides spp.产生丙酸,Prevotella产生己酸,饮食变化特别是纤维摄入或益生元使用显著影响细菌生长和SCFAs生产。
研究的优势在于方法简单易行,无需复杂样品前处理,便于医院环境实施。然而研究也存在一定局限性:样本量较小(n=106),样品收集、储存和运输未完全统一,可能影响VOCs谱;横断面单中心设计可能限制结果向不同饮食、微生物组谱人群的外推;TD-GC-MS配置针对(半)挥发性化合物,高挥发性或热不稳定代谢物可能未被检测。
结论强调,该研究开发的算法通过分析粪便VOCs谱,能有效区分健康个体、结直肠腺瘤和癌症患者。经过严格优化和验证,算法表现出良好的诊断性能,特别是能减少约50%的不必要结肠镜检查。与FIT测试相比,新方法在腺瘤检测方面表现更好,虽然特异性略低。提供的详细化合物概率表为后续研究奠定了坚实基础,标志着CRC诊断准确性和分类技术的重大进步,有望改善早期检测和患者预后。
该研究的创新性在于将VOCs分析与机器学习算法相结合,突破了传统依赖单一或少量生物标志物的局限,通过全面分析整个质谱范围内的化合物模式,实现了更准确的疾病分类。这种非侵入性、成本效益高的筛查策略有望补充或增强现有检测方式,特别适合大规模人群筛查应用。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号