机器学习鉴定INHBA、DPT、ADH7、FBP2和GPR155作为胃癌诊断生物标志物的研究

《Hormones & Cancer》:Machine learning identifies INHBA DPT ADH7 FBP2 and GPR155 as diagnostic biomarkers for gastric cancer

【字体: 时间:2025年12月03日 来源:Hormones & Cancer

编辑推荐:

  本研究针对胃癌早期诊断生物标志物匮乏的临床难题,研究人员通过整合GEO和TCGA数据库,结合LASSO、SVM-RFE和RF三种机器学习算法,筛选出INHBA、DPT、ADH7、FBP2和GPR155五个关键基因。构建的逻辑回归模型在内部和外部验证中AUC分别达0.867和0.984,SHAP分析揭示INHBA和DPT贡献度最高。功能分析表明这些基因通过ECM受体相互作用、代谢重编程等通路影响肿瘤微环境,为胃癌精准诊断提供了新型分子靶标。

  
胃癌是全球范围内严重威胁人类健康的恶性肿瘤,根据GLOBOCAN 2022数据,其发病率和死亡率分别位居全球第五位,年新增病例约96.8万例,死亡病例约65.9万例。尽管近年来发病率和死亡率有所下降,但年轻人群的发病率却呈现逐年上升趋势,成为持续存在的全球健康挑战。早期胃癌患者往往表现为上腹部不适、反酸、消化不良等非特异性症状,极易被误诊为胃炎或胃溃疡等常见消化系统疾病,导致多数患者确诊时已处于进展期甚至晚期阶段。虽然手术切除及化疗、放疗、靶向治疗和免疫治疗等多种治疗方式在改善患者预后方面取得了一定进展,但总体治疗效果仍不理想。当前生物标志物的局限性凸显了寻找新型、全面生物标志物的迫切需求。
随着生物信息学和高通量组学技术的快速发展,肿瘤机制研究进入了新的阶段。下一代测序等全基因组测序技术的革新使得研究人员能够获取癌症基因组图谱,为精准靶向治疗和挖掘特定癌症特征提供了海量表达数据集。机器学习作为人工智能的重要分支,能够有效处理复杂生物数据,自动解决噪声和冗余信息问题,显著提高结果的准确性和可靠性。SHapley additive exPlanations(SHAP)等可解释性AI技术通过为特征分配重要性值,使机器学习模型的输出变得透明可解释,相比盲目依赖算法输出,能在医疗领域做出更明智的决策。生物信息学分析与机器学习技术的结合,为胃癌生物标志物的发现开辟了新途径。
本研究采用综合生物信息学和机器学习方法,旨在识别胃癌关键蛋白生物标志物并阐明其潜在功能。研究人员从NCBI Gene Expression Omnibus(GEO)数据库获取五个胃癌相关数据集(GSE26942、GSE27342、GSE30727、GSE63089和GSE65801),包含392个肿瘤样本和199个正常组织样本。同时从The Cancer Genome Atlas(TCGA)数据库下载412个胃癌组织和36个正常组织的标准化RNA测序数据及临床病理信息。
关键技术方法包括:使用limma包进行差异表达分析鉴定171个差异表达基因;采用LASSO、SVM-RFE和RF三种机器学习算法筛选关键基因;构建十种机器学习模型(RF、SVM、PLS、DTS、KNN、逻辑回归、XGBoost、GBM、glmBoost和NeuralNet)并通过ROC曲线评估诊断性能;应用SHAP分析解释模型特征贡献度;进行GSEA和GSVA功能富集分析;利用CIBERSORT算法评估免疫细胞浸润;通过Kaplan-Meier Plotter和Cox回归进行生存分析。
3.1 关键差异表达基因的鉴定
研究整合五个GEO数据集以阐明胃癌的遗传基础。通过数据合并增加样本量并减少异质性,经标准化处理后,主成分分析(PCA)证实了标准化方法在减少整合数据集技术变异方面的有效性。利用limma R包对胃肿瘤和正常样本进行差异表达分析,以adj.P.Val<0.05且|log2FoldChange|>1为标准,共鉴定出171个差异表达基因,其中64个上调,107个下调。
3.2 171个差异表达基因的GO和KEGG分析
通过基因本体论(GO)和京都基因与基因组百科全书(KEGG)富集分析探究171个基因的生物学功能。GO生物过程分析显示在响应外源刺激、消化、激素代谢过程、组织稳态和解剖结构稳态方面显著富集。GO细胞成分分析显示在细胞顶端部分、含胶原的细胞外基质和顶端质膜显著富集。GO分子功能分析显示在细胞外基质结构成分、丝氨酸水解酶活性、氧化酶活性、作用于CH-OH基团供体的活性和酒精脱氢酶[NAD(P)+]活性方面显著富集。KEGG分析突出显示胃酸分泌、细胞色素P450对外源物的代谢、病毒-肝炎病毒和细胞色素P450药物代谢为最显著通路。
3.3 机器学习鉴定胃癌相关核心差异表达基因
为识别胃癌诊断生物标志物,研究采用最小绝对收缩和选择算子(LASSO)、支持向量机递归特征消除(SVM-RFE)和随机森林(RF)技术。LASSO用于识别关键特征同时解决多重共线性问题,分析与胃癌表达相关的33个基因。SVM-RFE生成特征向量,揭示26个与胃癌密切相关的基因。RF算法突出显示重要性评分高于3的基因。三种分析方法的交集鉴定出五个核心差异表达基因:INHBA、DPT、ADH7、FBP2和GPR155。
3.4 诊断价值评估
研究严格评估十种机器学习算法的诊断性能,使用80/20分割进行训练和内部验证,并在TCGA-STAD独立外部队列中进一步验证。虽然支持向量机(SVM)算法在内部验证中表现出强大性能(AUC=0.944),但逻辑回归模型因其在性能、可解释性和泛化能力方面的最佳平衡而被选为最终候选模型。更重要的是,它在外部TCGA-STAD队列中表现出强大的泛化能力,AUC为0.984,同时平衡准确度为0.958,F1分数为0.977,召回率(灵敏度)为0.966,特异性为0.861。内部和外部验证的一致性能证实了基于逻辑回归的诊断模型的可靠性。
3.5 SHAP分析揭示关键差异表达基因的贡献
为评估INHBA、DPT、ADH7、FBP2和GPR155对逻辑回归模型预测能力的影响,研究进行SHapley加性解释(SHAP)分析。SHAP值的可视化阐明了这些基因的具体作用,突出显示INHBA和DPT为最重要的贡献者。蜂群图的Y轴排列描绘了基因对模型贡献的排名,并阐明了跨特征的SHAP值分配。结果表明INHBA基因表达降低与正常预测相关,而DPT、ADH7、FBP2和GPR155表达水平降低与肿瘤预测相关。
3.7 五个核心差异表达基因的功能富集分析
为全面了解通路活性,研究同时采用GSEA和GSVA。这种整合方法不仅识别了条件间差异富集的通路(通过GSEA),还评估了单个样本水平的通路活性变异(通过GSVA),为潜在生物学过程提供了互补性见解。具体而言,FBP2 consistently emerged as a master regulator of metabolic reprogramming, with both analyses confirming its significant upregulation in retinol and xenobiotic metabolism pathways, coupled with a concurrent suppression of DNA replication and protein synthesis machineries. Similarly, DPT exhibited a stable profile associated with cardiovascular function, robustly upregulating calcium signaling and vascular smooth muscle contraction pathways, while inhibiting proliferative processes, positioning it as a key mediator of tissue structural integrity. While GSEA emphasized ADH7's role in olfactory transduction and cell cycle inhibition, GSVA refined this understanding by specifically pointing to its involvement in retinol metabolism and the downregulation of progesterone-mediated oocyte maturation.Furthermore, GPR155 demonstrated a consistent pattern across both methods, reinforcing its dual role in enhancing neuroactive ligand-receptor interactions and taste transduction, while potently suppressing cell cycle progression and p53 signaling, potentially linking neural communication to the control of cellular proliferation. Notably, INHBA displayed a clear and consistent signature, with both GSEA and GSVA confirming its primary function in promoting extracellular matrix(ECM) receptor interactions and cell adhesion, simultaneously downregulating central metabolic pathways such as pyruvate and propanoate metabolism. This positions INHBA as a crucial factor in modulating the tumor microenvironment or tissue remodeling processes by balancing adhesive properties with metabolic activity.
3.8 免疫浸润分析
免疫荒漠肿瘤是指肿瘤微环境中缺乏免疫细胞浸润,可能导致肿瘤对免疫治疗无反应并导致更差的生存。免疫浸润差异分析和基因-免疫细胞相关性分析表明,INHBA与先天免疫细胞(如巨噬细胞、中性粒细胞)呈正相关,但与适应性免疫细胞(如浆细胞、T细胞)呈负相关。相反,DPT、ADH7、FBP2和GPR155显示出大致相反的相关性模式。
3.9 临床预后相关性分析
为解读模型基因在胃癌患者生存中的作用,研究利用Kaplan-Meier Plotter网站分析其总体生存(OS)的预后差异。结果表明,与低表达组相比,模型基因上调的患者OS率显著较差。进一步整合TCGA数据进行Cox比例风险回归分析以控制年龄、性别和肿瘤分期等潜在混杂因素。单变量分析证实了INHBA的预后价值,但在调整年龄和TNM分期的多变量分析中,INHBA失去统计学意义,而淋巴结转移和远处转移仍是独立预后因素。
研究结论与讨论部分指出,胃癌的临床治疗仍然充满挑战,大多数患者在诊断时已处于晚期阶段。肿瘤细胞的基因突变复杂,通常表现出显著的基因组异质性,在不同个体中观察到不同的突变谱。因此,寻找精确治疗方法的需求日益迫切。
本研究通过整合生物信息学分析和机器学习技术,识别出五个对胃癌恶性肿瘤预测和诊断具有重要意义的独特基因。值得注意的是,INHBA和DPT在这些基因中尤为突出。将这五个基因视为一个整合的多基因panel,而不是孤立的分子,构成了一个更好地应对胃癌异质性的策略。基于GSEA和GSVA功能分析的综合证据,研究提出一个假设,即这五个基因可能通过协同分子网络影响胃癌的病理进展。INHBA作为该网络中的关键节点,证据包括其在机器学习模型中的最高贡献权重(SHAP分析)、在ECM重塑中的核心作用、与免疫排斥"冷肿瘤"微环境的关联以及与不良患者结局的潜在联系。这些集体证据表明,INHBA可能通过调节肿瘤微环境中的细胞-基质相互作用来协调肿瘤发生,从而为癌细胞存活和扩张培育有利的生态位。其他四个基因(DPT、ADH7、FBP2和GPR155)似乎通过调节基本细胞过程(包括代谢重编程和细胞内信号传导)为这种INHBA驱动的致癌过程提供关键支持。
研究承认存在一定局限性,结果来源于公共数据库分析,尽管努力整合TCGA-STAD和多个GEO数据集验证结果,但这些基因之间的具体调控网络及其在胃癌中的确切功能机制需要通过功能实验进一步验证。未来研究应旨在描绘它们的上下游关系,并确认它们对肿瘤生长和免疫微环境的影响。
这项研究为候选基因提供了宝贵资源,并为未来研究奠定了基础,有望为胃癌的早期诊断和精准治疗开辟新途径。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号