基于机器学习的人乳头瘤病毒相关头颈癌分子分型工具开发与验证

【字体: 时间:2025年10月07日 来源:Oral Oncology 3.9

编辑推荐:

  本研究开发了一种基于机器学习(ML)的HPV阳性头颈鳞状细胞癌(HNSCC)分子分型工具,可精准区分免疫强化型(IMU)与高角化型(KRT)亚型。该工具通过RNA-seq数据分析实现了100%的验证准确率,为HPV+HNSCC的精准治疗和预后评估提供了标准化解决方案。

  
亮点
背景
人乳头瘤病毒阳性头颈鳞状细胞癌(HPV+HNSCC)的分子亚型——IMU(免疫强化型)和KRT(高角化型)——因具有独特的分子特征、肿瘤微环境、临床结局以及潜在的不同最佳治疗策略而获得广泛认可。目前尚无标准化方法对新发现的HPV+HNSCC肿瘤进行亚型分类。本文介绍了一种基于机器学习的分类器及网络工具,可依托IMU/KRT范式可靠地对HPV+HNSCC肿瘤进行分型,并强调了亚型分类在HPV+HNSCC中的重要性。
方法
我们对密歇根大学健康系统的67例HNSCC肿瘤进行了RNA测序(RNA-seq)。结合三个公开数据集,我们共使用了229例HPV+HNSCC的RNA-seq样本。使用84个带有亚型标签的HPV+RNA-seq样本对分类器进行训练和测试,并用其余样本进行验证。我们还测试了37个临床人口统计学和分子变量与亚型的关联性。
结果
分类器在测试集中达到了100%的准确率。在两个额外队列中的验证结果表明,该工具能依据已知亚型特征成功实现样本区分。对亚型与分子及临床人口统计学变量关系的探究揭示了21个显著关联,既证实了既往发现,也揭示了新的亚型相关因素。
结论
本研究提供了一种可靠的分类器,可基于批量RNA-seq数据将HPV+HNSCC肿瘤分为IMU或KRT亚型,并增进了我们对HPV+HNSCC亚型的理解。
引言
癌症类型通常按细胞来源进行分类,但这些分组内部往往存在巨大异质性[1]。对乳腺癌[2]、肺癌[3]、胰腺癌[4]和结肠癌[5]的研究已基于特定基因驱动突变或表观遗传特征发现了不同亚型。此类亚型通常具有临床实用性,可作为预后生物标志物、辅助医师制定治疗策略或与治疗反应相关[2]。随着精准医学和靶向治疗的发展,明确更精细的亚型分类变得愈发重要。
人乳头瘤病毒相关头颈癌的发病率持续呈流行性增长。约30%的HNSCC[6]可归因于人乳头瘤病毒(HPV),其中口咽部鳞癌(OPSCC)是最常见的HPV相关部位[7]。目前在美国和英国,HPV感染分别驱动约71%和52%的OPSCC[8],且通常赋予生存优势,5年生存率平均约为80%[9]。尽管HPV+HNSCC在形态学和表观遗传学上存在广泛多样性[10],肿瘤分型在该癌种群体中尚未被广泛用作临床指标。
多个研究团队已对HPV+HNSCC进行了分子分型,如Qin等人所述[9],其中大多数研究使用了基因表达水平数据[[11],[12],[13]]。Keck等人首次定义了HPV+HNSCC亚型,并将其命名为IMS(免疫强化型)和CL(经典型)[11]。IMS具有显著的免疫和间质特征,而CL则富集了腐胺(多胺)降解通路。Zhang等人利用RNA-seq和拷贝数变异(CNV)重新鉴定出HPV+HNSCC亚型为IMU(免疫强化型)和KRT(高角化型)[12],并发现了KRT与HPV整合之间的强关联。Locati等人进一步将KRT肿瘤区分为高间质和低间质组[13,14],并证明IMU患者比高或低间质KRT患者预后更好。IMU/KRT的亚型命名规范被Leemans等人采纳[15],这些亚型还通过其他高通量技术得到了表征,包括DNA甲基化[16](显示KRT存在更显著的全局低甲基化)和DNA羟甲基化[17]。IMU/KRT亚型还与HPV E6异构体表达显著相关,KRT倾向于具有比全长E6更高的剪接型E6*异构体水平[18,19]。
尽管无监督方法(如聚类分析)已用于识别癌症亚型,但不同研究中获得的聚类和亚型分配自然存在差异。这种不一致源于队列属性、样本质量、RNA制备方法、批次间技术差异以及所用特定聚类算法等因素的差异[20]。因此,需要一种一致且可重复的方法。为克服当前HPV+HNSCC分型的局限性并规范新肿瘤的亚型分类,我们训练并构建了一个稳健的机器学习(ML)分类器,其中包含多个步骤以增强严谨性和可重复性。我们首先使用来自两个队列(18例来自密歇根大学,66例来自TCGA)的84例HPV+HNSCC样本,训练并测试了一个集成分类器,该分类器涉及五种ML模型和三个预定义基因集作为输入特征。然后,我们将分类器应用于另外两个HPV+OPSCC队列,发现结果与已知亚型特征和聚类结果一致。我们引入了一个用户友好的网络工具,以简化和 streamline 未来研究中HPV+HNSCC分型的过程。最后,我们对219例经分型的HPV+HNSCC独特患者样本进行了荟萃分析,并确定了21个与亚型相关的通路和临床人口统计学变量。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号