单细胞基础模型在生物学洞察中的力量:一项全面基准研究揭示其优势与局限

【字体: 时间:2025年10月04日 来源:Genome Biology 9.4

编辑推荐:

  本研究针对单细胞基础模型(scFMs)在实际生物医学应用中的价值不明确问题,系统评估了六种scFMs在基因和细胞水平任务中的表现。通过创新性引入细胞本体论评价指标和临床相关任务验证,发现scFMs能有效捕捉生物學关系结构,在跨数据集泛化和肿瘤微环境分析中表现优异,但模型选择需根据具体任务需求。该研究为单细胞领域提供了重要的模型选择指南和评估框架。

  
随着单细胞RNA测序(scRNA-seq)技术的飞速发展,研究人员能够以前所未有的分辨率探索细胞异质性和生物过程。然而,海量数据的高维度、高稀疏性和低信噪比特征对传统机器学习方法提出了巨大挑战。受自然语言处理领域基础模型成功的启发,单细胞基础模型(single-cell foundation models, scFMs)通过自监督学习从大规模数据中获取通用生物知识,展现出零样本学习和高效适应下游任务的潜力。尽管已有研究对scFMs进行了一些评估,但这些评估往往忽略了真实生物医学场景中的关键问题:模型捕捉生物学洞察的能力如何?在什么情况下应选择复杂基础模型而非简单机器学习方法?是否存在某种模型在所有应用场景中 consistently 表现优异?
为了解决这些开放性问题,浙江大学的研究团队在《Genome Biology》上发表了全面基准研究,对六种主流scFMs进行了系统评估。研究团队设计了包含基因水平和细胞水平任务的综合评估框架,创新性地引入了细胞本体论 informed 的评估指标,并特别关注了临床相关应用场景如癌症细胞识别和药物敏感性预测。
研究采用了多种关键技术方法:从超过3300万单细胞数据中提取零样本基因和细胞嵌入;使用亚洲免疫多样性图谱(AIDA)v2作为独立验证集避免数据泄漏;开发了scGraph-OntoRWR新指标评估细胞类型关系保存程度;应用粗糙度指数(ROGI)量化细胞属性景观特征;采用非支配排序算法进行多指标综合排名。
基准研究框架概述
研究评估了六种基于Transformer架构的scFMs:Geneformer、scGPT、UCE、scFoundation、LangCell和scCello,涵盖了不同的预训练策略和输入编码方式。评估流程包括从scRNA-seq数据中提取基因嵌入和细胞嵌入,进而进行基因水平的功能预测和组织特异性分析,以及细胞水平的批次整合、细胞类型注释、癌症细胞识别和药物敏感性预测等任务。
深入细胞表征空间的生物学 informed 指标
在批次整合评估中,研究发现虽然scFMs在传统scIB指标上未显著超越基线方法,但通过新开发的scGraph-OntoRWR指标评估发现,scFMs能更好地保持细胞类型间的生物学关系结构。该指标基于细胞本体论图和文本相似性加权边构建,提供了与先验生物学知识一致的数据集无关参考框架。
细胞类型注释的基准分析
研究在三种场景下评估细胞类型注释性能:数据集内验证、跨数据集验证和新细胞类型识别。除了标准准确率和F1分数外,还引入了非叶节点准确率和最低共同祖先距离(LCAD)等 ontology-aware 指标。结果显示scCello在保持细胞类型层次结构方面表现最佳,而UCE和scFoundation在标准分类指标上领先。跨数据集验证表明,基于scVI等传统方法严重依赖基因集对齐,而scFMs提供更通用的细胞表征空间。
癌症细胞识别的基准分析
研究收集了来自7种癌症类型的跨组织数据集,采用留一组织交叉验证评估模型泛化能力。UCE模型在大多数组织中表现最佳,证明其提供了具有跨组织同质性的细胞表征空间。通过ROGI分析发现,性能提升源于更平滑的景观,降低了任务特定模型的训练难度。
药物敏感性预测的基准分析
研究评估了模型在从bulk RNA-seq数据向单细胞数据迁移学习中的表现。所有scFMs均超越基线模型,其中scFoundation和scGPT表现最佳。ROGI值与模型性能呈强负相关(r=-0.99),表明该指标可作为模型选择的有效代理。
总体性能
通过非支配排序算法对模型进行综合排名,发现没有单一scFM在所有任务中 consistently 表现最优。scFoundation和UCE在多数情况下表现最佳,而scGPT适用于资源受限环境。任务特异性排名显示,不同模型在不同场景下各有优势。
研究结论表明,经过良好预训练的scFMs提供的零样本嵌入能够捕捉多维度生物学意义属性。在基因水平,scFMs能有效学习基因功能和在不同细胞背景下的表达特异性。某些scFMs与先验生物学知识高度一致,这与优异的下游任务性能相关。与传统方法相比,scFMs提供了即插即用的通用细胞嵌入空间,无需基因过滤或手动整合,但在数据分布与预训练数据差异较大时,零样本嵌入可能表现不佳。
该研究的重要意义在于建立了全面的scFMs评估框架,引入了生物学感知的评估指标,解决了数据泄漏问题,并提供了基于具体应用需求的模型选择实践指南。研究结果桥接了scFMs理论进展与实际应用之间的鸿沟,为单细胞领域的方法开发和基准测试提供了宝贵见解。
未来研究方向包括开发更多生物学信息注入的预训练任务,创建bulk和单细胞数据的统一嵌入,以及解决计算资源挑战以提高这些强大模型的可及性和泛化能力。多模型集成和跨模态整合代表了进一步提升模型性能的 promising 方向。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号