xCell 2.0:基于稳健细胞比例估计算法预测免疫检查点阻断反应的新突破

【字体: 时间:2025年10月04日 来源:Genome Biology 9.4

编辑推荐:

  本研究针对细胞类型比例估计中的技术挑战,开发了xCell 2.0算法,通过自动化处理细胞类型依赖关系和改进基因签名生成方法,在9个人鼠参考集和26个验证数据集(共1711个样本)上验证显示其优于11种现有方法。该工具显著提升免疫检查点阻断(ICB)治疗响应预测精度(AUC=0.646),为肿瘤微环境研究提供强大工具,已集成Bioconductor平台并开放预训练参考数据集。

  
在当今生物医学研究领域,理解复杂组织和疾病背后的细胞异质性至关重要。虽然单细胞RNA测序(scRNA-seq)技术能够提供前所未有的细胞多样性分辨率,但其高昂的成本和有限的公共数据可用性仍然制约着广泛应用。更重要的是,单细胞实验通常需要新鲜分离的细胞,难以用于回顾性研究或预测患者对治疗的反应。因此,从批量基因表达数据中解析细胞组成仍然是一个迫切的需求。
细胞反卷积(Cellular deconvolution)技术正是为了解决这一难题而发展的计算方法。随着单细胞RNA测序数据集的日益丰富,研究人员开始将这些高分辨率细胞图谱作为参考,推动着自动化签名学习和批量基因表达数据建模技术的不断发展。早在2017年,研究人员就开发了xCell算法,这是一种基于基因签名的计算方法,能够估计批量基因表达数据中不同细胞类型的相对丰度。然而,原始版本的xCell只能使用预训练的参考数据集,无法针对特定组织类型或实验条件进行定制,这大大限制了其在某些重要应用场景中的实用性,特别是在肿瘤微环境(TME)研究领域。
肿瘤微环境包含许多在血液中不存在的特殊细胞类型,要对这些细胞进行准确分析,就需要使用专门针对肿瘤微环境的参考数据集。尽管xCell因其高准确性和易用性而广受欢迎,但科学界仍然迫切需要开发一个更灵活的版本,能够利用任何给定的参考数据集进行训练。
正是在这样的背景下,Almog Angel等研究人员在《Genome Biology》上发表了他们的最新研究成果——xCell 2.0。这个更新版本的xCell算法引入了训练功能和完善的基因签名生成流程,允许用户使用任何给定的参考数据集。研究团队通过九个参考数据集和26个验证数据集(包含1711个样本和67种细胞类型)对xCell 2.0进行了全面基准测试,并使用了独立的Deconvolution DREAM Challenge数据集进行验证。结果表明,xCell 2.0在不同参考数据集上均优于所有其他测试方法,展示了其在多样化生物学背景下的卓越准确性和一致性。
为了开展这项研究,研究人员采用了多项关键技术方法:首先建立了包含人类和小鼠的九个参考数据集,涵盖一般组织、血液和疾病相关类型;开发了自动化细胞类型依赖性处理流程,通过Cell Ontology(CL)标准标识整合细胞谱系关系;改进了基因签名生成算法,采用基于百分比的阈值策略适应不同参考集的细胞类型数量差异;利用硅内模拟(in-silico simulations)学习线性转换和溢出校正参数;采用LightGBM机器学习算法对2007个癌症患者的批量RNA-seq数据进行分析,预测免疫检查点阻断(ICB)治疗反应;最后通过加权Spearman相关系数评估性能,并采用嵌套交叉验证确保结果稳健性。
研究结果方面,xCell 2.0展现了多方面的技术优势:
通过改进的细胞类型富集分析流程,xCell 2.0引入了四个关键改进步骤: ontology整合以识别细胞类型依赖性、使用不同基因独特性阈值生成数百个基因签名、创建硅内模拟以学习线性转换参数,以及参数化溢出效应校正。研究显示,考虑细胞类型依赖性显著提高了整体签名性能(图1B),修改后的基因纳入阈值标准相比原始xCell版本有轻微但稳定的改进(图1C)。溢出校正强度(α)的实验表明,直接相关性保持稳定而溢出相关性随着α值增加而降低(图1D)。此外,研究还提供了多个预训练参考数据集,涵盖人类和小鼠的多种组织类型(图1E)。
在性能比较方面,xCell 2.0在与十一种流行反卷积方法的比较中表现卓越:
使用九个参考数据集和26个验证数据集(79个人类参考-验证组合,含1688样本和56种细胞类型;6个小鼠组合,含23样本和11种细胞类型)的测试表明,xCell 2.0在所有六个人类参考数据集上的加权Spearman相关系数均排名第一(图2B),合并所有参考后的中位加权相关系数达0.6,显著优于第二名的dtangle(0.54)和第三名的BayesPrism(0.43)。在小鼠数据集上同样保持领先地位(中位相关系数0.75)。特别值得注意的是,xCell 2.0在最小化相关细胞类型间溢出效应方面表现最佳(图2D),这是准确细胞反卷积中的一个关键挑战。
在Deconvolution DREAM Challenge的独立验证中,xCell 2.0在粗粒度细胞类型注释中排名第二(Spearman相关系数0.776),在细粒度注释中排名第一(相关系数0.666),显著超越了原始xCell版本和其他方法。
最令人印象深刻的是xCell 2.0在临床预测中的应用价值:
研究人员收集了2007个接受免疫检查点阻断(ICB)治疗前的癌症患者批量RNA-seq样本,涵盖多种癌症类型和治疗方案(图3A)。通过xCell 2.0分析获得50种细胞类型的评分,并使用LightGBM算法构建预测模型。结果显示,基于xCell 2.0肿瘤微环境特征的模型预测性能(中位ROC-AUC=0.646)显著优于仅使用癌症类型和治疗信息的基线模型(AUC=0.598),也超越了其他反卷积方法和已建立的预测评分(如TIDE和IMPRES)(图3B)。更重要的是,预测结果与患者生存结局显著相关(图3C),通过SHAP值分析发现CD8+ T细胞是预测ICB治疗反应的最重要特征(图3D)。
研究结论与讨论部分强调了xCell 2.0的多方面意义。该研究通过引入训练自定义参考数据集的能力,显著提升了细胞反卷积技术的灵活性和实用性。自动化处理细胞类型依赖性、改进的基因签名选择过程以及自动生成硅内模拟进行参数学习和溢出校正等关键改进,使xCell 2.0在不同参考类型和验证数据集上始终优于其他流行方法。
从技术角度看,xCell 2.0的优势在于其独立评分每个细胞类型的方法,仅在溢出校正步骤考虑依赖性,这比试图同时推断所有细胞类型的方法提供了更好的灵活性和准确性。另一个关键优势是其对参考数据集和混合数据集间标准化差异的稳健性,这大大简化了分析流程并拓宽了应用范围。
在临床应用方面,xCell 2.0对2000多名ICB治疗前癌症患者的分析展示了其在推进精准医学方面的潜力。基于xCell 2.0肿瘤微环境特征化的模型显著优于仅使用癌症类型和治疗信息的模型,强调了肿瘤微环境组成在决定治疗结果中的关键作用,以及准确细胞反卷积在癌症研究中的重要性。
研究人员还提供了针对人类和小鼠多种组织的预训练参考对象,包括全面的免疫细胞汇编和泛癌数据集,这大大增强了xCell 2.0的可访问性和适用性。虽然xCell 2.0在不同数据集上表现一致,但研究人员也承认没有单个参考适用于所有场景,建议用户选择与其数据来源一致的参考:癌症样本使用泛癌参考,血液来源数据集使用血液特异性参考,更多样化或一般组织分析使用Blueprint-Encode参考。
最后,研究讨论了xCell 2.0的潜在局限性,包括区分密切相关细胞类型的挑战、在高度同质数据集中的性能变化、溢出校正可能无法完全消除所有交叉谈话、对罕见细胞群体的准确性可能降低以及计算要求较高等。尽管如此,xCell 2.0仍然代表了细胞反卷积领域的重要进展,其改进的性能、灵活性和稳健性使其成为理解复杂组织和疾病细胞异质性的强大工具。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号