OncoMark:基于神经多任务学习的高通量癌症标志量化框架及其临床应用
《Communications Biology》:OncoMark: a high-throughput neural multi-task learning framework for comprehensive cancer hallmark quantification
【字体:
大
中
小
】
时间:2025年10月09日
来源:Communications Biology 5.1
编辑推荐:
本研究针对癌症标志量化难题,开发了基于神经多任务学习(N-MTL)的OncoMark框架,通过肿瘤活检转录组数据同步量化10个癌症标志活性。验证显示其交叉验证准确率超99%,外部数据集验证达96.6%以上,且标志活性与AJCC/TNM分期显著相关。该工具为肿瘤分子分型提供新范式,推动精准肿瘤学发展。
癌症作为全球主要健康威胁,其复杂性源于肿瘤细胞在演进过程中获得的一系列生物学能力——即"癌症标志"。尽管Hanahan和Weinberg提出的癌症标志框架为理解肿瘤生物学提供了系统性视角,但临床诊断仍主要依赖传统病理学特征,缺乏直接量化这些标志活性的工具。这种脱节导致相同分期、分级的患者可能出现截然不同的治疗反应,凸显了分子层面肿瘤异质性认知的不足。
为解决这一瓶颈,来自Ashoka大学和S.N. Bose国家基础科学研究中心的联合团队开发了OncoMark——首个能够同步量化十大癌症标志活性的高通量计算框架。该研究成果于2025年10月7日正式发表于《Communications Biology》期刊。
研究团队创新性地采用多任务神经网络架构,通过整合941例患者涵盖14种组织类型的310万个单细胞转录组数据,构建了合成性伪批量转录组样本用于模型训练。关键技术方法包括:基于单细胞RNA测序(scRNA-seq)的合成数据生成策略,通过UCell算法计算单细胞水平标志评分并使用Otsu方法进行二值化标注;特征选择采用方差筛选法保留9326个高变基因;模型架构设计为共享底层结合任务特定输出层的多任务学习(MTL)框架,有效捕捉标志间生物学关联。
通过差异表达分析验证合成数据的标志注释质量,结果显示标志阳性样本中相应基因集显著富集(log2折叠变化和-log10FDR值均呈现深度蓝色信号),证实注释可靠性。
十项标志预测均表现优异:持续增殖信号(SPS)达到100%准确率,逃避生长抑制(DCE)准确率98.91%,抵抗细胞死亡(RCD)99.93%,诱导血管生成(IA)99.92%。所有标志的AUROC值均达1.00±可忽略标准差。
在五个外部数据集验证中,Dong等人数据集准确率97.26%,Yost等人达99.64%,Gao和Nam数据集均获100%完美指标。
OncoMark在GTEx/ENCODE正常样本与TCGA等癌症数据库对比中,成功捕捉到标志活性分布的显著差异(K-S统计量>0.7,p值趋近零),而传统机器学习模型呈现明显癌症样本识别偏差。
在已知转移患者的原发肿瘤样本中,OncoMark检测到侵袭与转移(IA)标志活性显著升高,提示其捕捉早期转移潜能的能力。
TCGA数据分析显示,从AJCC分期I期到IV期,标志活性逐步增强,晚期阶段关联最显著。肿瘤大小(T1-T4)、淋巴结浸润(N0-N2/3)和转移(M0-M1)阶段均呈现类似趋势。
通过逻辑回归模型量化药物-标志相互作用,发现无病生存(DFS)中放射治疗与肿瘤促进炎症(TPI)关联,曲妥珠单抗与RCD标志相关;总生存(OS)中阿那曲唑显著调控逃避免疫破坏(AID)标志。
该研究开创性地实现了癌症标志的系统性量化,将分子生物学机制与临床实践相衔接。OncoMark框架不仅为肿瘤分子分型提供新维度,其标志活性与临床分期、治疗反应的关联性更预示其在预后评估和个性化治疗指导方面的应用潜力。随着测序成本下降和计算平台发展,这种标志驱动的诊断方法有望成为精准肿瘤学的标准组件,最终改善患者临床结局。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号