Unico:跨组学异质性数据细胞类型分辨率基因组学的统一解卷积模型
【字体:
大
中
小
】
时间:2025年10月04日
来源:Genome Biology 9.4
编辑推荐:
本研究针对异质性组织样本中细胞类型特异性信号混杂的难题,开发了统一跨组学解卷积方法Unico。该方法首次采用无分布假设的模型,通过建模细胞类型间协方差结构,成功从二维批量数据中解析三维细胞类型特异性张量。在基因表达和DNA甲基化数据验证中,Unico较现有方法显著提升了解卷积精度,增强了对CREBBP突变相关B细胞特异性表达变化的检测能力,并提高了表观基因组关联研究中细胞类型特异性差异甲基化分析的鲁棒性,为大规模基因组研究提供细胞类型分辨率的新范式。
在基因组学研究领域,绝大多数群体规模的组学数据来源于异质性组织的"批量"样本,这些样本实质上是不同细胞类型的混合体。这种混合特性使得解析细胞类型特异性信号变得极具挑战性,而深入研究细胞类型水平的基因组变异对于揭示复杂生物学机制又至关重要。当前,由于成本限制,单细胞数据集通常仅包含数十个个体的数据;使用流式细胞术大规模纯化细胞类型既费力又不切实际,特别是对于难以分离细胞的实体组织和冷冻组织而言更是如此。
事实上,迄今为止收集的大多数转录组和其他基因组数据类型都是通过异质性组织测量的,这导致了大量大型异质性"批量"基因组数据的积累。这种情况催生了计算方法的开发,旨在从这些批量数据中解析出构成此类批量图谱的细胞类型水平信号的卷积。如果能够成功实现,将为我们提供一种变革性能力:在已经收集了大量批量数据的多种组织和无数条件下,开展强大的、大规模的细胞类型水平研究。
传统上,批量基因组学研究通常采用分解方法,其中观察到的批量数据矩阵被建模为两个矩阵的乘积:样本中的细胞类型比例(分数)和每个特征的细胞类型基因组水平("特征")。这相当于解决一个矩阵分解问题。然而,这些方法只允许我们推断每个特征的单一细胞类型水平特征谱,这对应于所有数据样本在细胞类型水平共享相同基因组水平的不现实假设。
每个样本都可能反映其自身(可能是独特的)细胞类型水平模式,这是由于遗传背景、环境暴露和人口统计学等各种个体间变异因素造成的。对分解模型进行自然调整以反映这种变异,就产生了真正的解卷积问题,即将二维的样本×特征批量数据分解为未观察到的三维样本×特征×细胞类型张量。分解可以看作是更一般的解卷积问题的一个退化情况。因此,对数据进行解卷积比仅仅分解数据更为理想,并且成功的解卷积所提供的更高分辨率有望改善批量基因组学分析中的细胞类型背景和发现。
当前的解卷积方法可分为两类:启发式方法(如CIBERSORTx和CODEFACS)和参数化方法(如TCA、MIND、bMIND和BayesPrism)。参数化方法容易受到其基础分布假设偏差的影响。例如,假设数据服从正态分布对于转录组数据是无效的。虽然对数缩放等方差稳定变换在某些情况下可以经验性地缓解这个问题,但它们也破坏了线性假设,导致估计偏差。一个更原则性的、考虑数据实际分布的方法可能会产生更准确和可靠的结果。
为了解决这些挑战,Chen等人开发了Unico(Unified cross-omics),这是一个从大型异质性批量数据和匹配的细胞类型比例输入中学习细胞类型信号的解卷积方法。Unico的主要新颖之处在于采用基于模型的方法,同时不做任何分布假设,这使其成为第一个理论上适用于分析任何批量基因组数据集中细胞类型混合的原则性基于模型的方法。
Unico的第二个关键组成部分是考虑细胞类型之间的协方差。基因组特征可能在不同细胞类型之间存在差异但又相互协调;例如,转录程序可以在多个分化步骤中持续存在。确实,研究人员观察到许多基因在其细胞类型特异性表达水平上呈现出非平凡的相关结构,通过相关性矩阵的熵来测量,在谱系分化树中接近的细胞类型之间观察到更强的细胞类型相关性(较低熵)。在存在协方差的情况下,Unico利用来自细胞类型间协调的信息来改进解卷积。
为了评估Unico的性能,研究人员将其与CIBERSORTx、TCA、bMIND和BayesPrism以及一个简单的基线方法(天真地将每个批量图谱按样本的细胞类型比例加权)进行了比较。评估使用了来自外周血单核细胞(PBMC)和肺实质组织的单细胞RNA测序(scRNA-seq)数据生成的伪批量混合物。
研究结果表明,Unico在学习细胞类型水平协方差方面表现出色,相比第二佳性能的方法bMIND(也明确建模细胞类型协方差)平均相关性提高了36.3%。在估计伪批量图谱的潜在细胞类型表达水平方面,Unico consistently优于替代方法,相比第二佳性能的方法TCA,平均相关性提高了17.8%。与仅建模高熵基因相比,Unico在低熵基因(表现出强细胞类型协方差结构)中的改进更为明显,这突显了Unico通过建模细胞类型协方差结构获得的信息优势。
重要的是,学习更丰富的模型并没有带来显著的计算运行时间成本;实际上,Unico是第二快的解卷积方法。在不同建模细胞类型数量和不同样本量的情况下,方法的整体排名保持一致,并且在细胞类型比例输入中添加不同水平的噪声下也是如此。
研究人员还评估了Unico和其他解卷积方法在捕获真实细胞类型特征谱方面相对于批量表达的表现。令人惊讶的是,在基准测试中,Unico是唯一产生与真实潜在细胞类型特征谱相关性比相应伪批量水平更强的估计值的方法,甚至比回归掉细胞类型组成后的伪批量水平更强。
为了确认Unico可用于其他数据模式,研究人员还解卷积了批量DNA甲基化数据。使用Reinius等人提供的全血和分选细胞甲基化数据(六种免疫细胞类型)作为实验测量的真实基准,Unico在重建实验已知的三维张量方面表现出卓越性能,相比第二佳性能的方法bMIND,在根中位数平方误差(RMSE)和相关性方面分别平均提高了8.8%和8.1%。
在应用方面,研究人员将Unico应用于滤泡性淋巴瘤(FL)肿瘤的分析,以检测细胞类型特异性差异表达。Unico是唯一一致在与来自分选B细胞的黄金标准一致性方面排名靠前的方法,无论是对于下调还是上调的基因集。在下调基因中,Unico与使用单细胞FL数据作为先验的bMIND表现相当,两者都显著优于所有替代方法,并且是唯一显著优于简单批量分析的解卷积方法。
此外,研究人员还评估了Unico在表观基因组关联研究中提高分辨率和鲁棒性的能力。通过测试四个大型全血甲基化数据集中的细胞类型水平差异甲基化(DM),Unico在检测与性别和年龄相关的细胞类型水平DM方面表现出最高的一致性,同时在零假设下也实现了校准。尽管bMIND和BayesPrism结合了实验分选的细胞类型特征谱作为先验信息,但它们显著逊于Unico和专门为DM设计的方法。
为了分离Unico在一致检测DM方面改进性能的来源,研究人员还创建了一个参数化版本的Unico,该版本额外假设甲基化水平服从正态分布。参数化和非参数化版本的Unico产生了高度一致的结果,只有参数化方法略有改进。这些发现表明,Unico相对于TCA(在调用细胞类型DM方面第二佳的方法)的大部分优势可归因于建模细胞类型协方差。
研究人员开发了Unico模型,这是一个用于统一跨组学解卷积的框架。该模型将组织水平批量基因表达Xij表示为样本特异性细胞类型比例wi和细胞类型表达水平Zij的加权线性组合,加上一个具有方差τj2的非系统性变异分量eij。与标准分解问题不同,未知的Zij分量被建模为随机向量,具有细胞类型特异性均值向量μj和噪声项εij,后者具有均值零和对称正半定方差-协方差矩阵Σj,反映了基因j跨细胞类型的协方差。
Unico模型对公式中的变异分量分布不做任何假设,这使其自然适用于所有可以表示为细胞类型水平信号线性组合的异质性组织组学。Unico可以看作是TCA模型的推广,也是bMIND模型的频率主义替代方案。
对于三维张量估计,研究人员提供了Unico三维张量估计器的解析解,该解在批量水平服从正态分布的假设下得出。Unico基本上将估计器?ij定义为条件分布Zij|θj, Xij=xij, wi的期望值,旨在将观察到的与预期批量水平之间的残差沿着Σjwi指定的方向分配回个体细胞类型。在更丰富的Unico模型下,由于细胞类型之间的相关结构(即Σj),这种条件分布变得更具信息性,而这在TCA中没有被建模并被假设为单位矩阵。
在参数估计和优化方面,研究人员采用广义矩方法(GMM)的概念来估计模型参数。通过制定样本特异性矩条件,并迭代求解将总体矩(或更一般地,总体矩的函数)与其对应的数据派生样本矩匹配的方程(矩条件)。由于样本数量n远大于参数数量|θj|,系统是超定的,没有解能满足所有方程。因此,研究人员寻求最小化目标函数,其中f(Θ,X)是每组样本的n个矩条件集合,?是一个正定权重矩阵,反映了矩条件的经验方差-协方差矩阵的逆。
在实际实现中,研究人员在R中实现了Unico。为了稳定参数估计,他们在估计均值时考虑了非负约束,在估计模型中的方差和协方差时使用了小的L2惩罚。后者减轻了由于不同细胞类型比例之间的高度相关性而导致的共线性和因此不准确估计的风险。此外,在估计给定特征的参数时,他们会忽略值与均值偏离超过两个标准差的样本,这一措施防止极端和非代表性数据点主导解。
研究人员迭代优化Unico模型。在每次迭代结束时,他们更新权重,然后可以在后续迭代中使用这些权重来加权样本。他们使用mgcv R包中的约束最小二乘求解器pcls来学习均值,并使用nloptr R包中实现的COBYLA算法来学习方差和协方差。经验上,他们发现Unico在使用少至两次迭代(即更新权重一次)估计均值和使用三次迭代估计方差和协方差时效果良好。
最后,Unico解卷积估计器偶尔会产生极值(正或负),这是该框架的固有特性,因为对模型参数施加的非负约束不一定转化为推断细胞类型水平谱的非负性。特别是,极端负估计通常来自异常输入值。由于估计器依赖于批量水平数据,批量测量中的异常值可能会传播并导致极端解卷积输出。
研究结论表明,Unico能够成功解卷积批量基因组数据为细胞类型水平特征谱,在基因表达和DNA甲基化数据集上优于现有方法。通过采用无分布方法并建模细胞类型协方差,Unico提供了对批量数据更精确的分析,并增强了进行强大的、大规模细胞类型分辨率基因组研究的能力。
讨论部分指出,Unico的解卷积前提是,通过建模与生物条件相关的细胞类型模式,我们可以获得超出标准批量分析所能提供的见解。因此,解卷积估计与细胞类型特征谱的相关性是评估这些方法性能和潜在效用的间接但常见的方式。此外,直接在下游分析中使用解卷积估计通常不是最优的:它们反映了本质上有噪声的点估计,并且仅代表给定模型的"最佳猜测"。
与TCA和bMIND类似,Unico估计了潜在细胞类型水平的分布,不仅提供点估计,还提供其方差(即不确定性)的估计。在Unico的细胞类型差异分析中,研究人员将这种不确定性纳入下游统计模型中,采用一步法,从而避免依赖显式解卷积点估计。通过特别降低具有高估计方差的细胞类型特征谱的权重,研究人员利用了如果仅依赖点估计将会丢失的信息。研究人员认为,未来的解卷积工作应该类似地设计针对特定下游任务量身定制的模型,并超越显式点估计。
在框架内测试差异细胞类型变异,可以模拟协变量和表型对细胞类型基因组变异的影响。Unico也可以应用于模拟相反方向(即细胞类型基因组变异对表型的影响)。然而,与TCA和bMIND不同,这目前需要在回归框架中使用细胞类型模式的点估计作为解释变量。鉴于最近的研究结果强调正确指定模型方向如何显著影响假设检验的统计特性,未来的工作可能通过扩展Unico来学习相反方向而不依赖显式点估计,从而增强效力和校准。
最后,Unico有一些局限性,虽然其中一些并非Unico独有,而是所有评估的解卷积方法共有的,但它们可能潜在地偏倚并影响提出的模型的性能。首先,Unico假设输入批量样本的细胞类型比例是已知的。诚然,这些信息在批量基因组学数据中很少可用,因此在实践中需要估计比例。虽然使用基于参考的方法来学习细胞类型组成是常见的,但使用估计代替测量会带来噪声和潜在偏倚的来源。研究人员使用基于参考的估计进行的多个真实数据分析,以及在噪声细胞类型组成下解卷积计算机混合物的评估表明,在实践中,Unico总体上对这种噪声源是鲁棒的。然而,当尝试建模大量细胞类型时,所有方法(包括Unico)预计表现不佳,因为低丰度细胞类型仅代表批量数据变异的一小部分。由于异质性组织通常代表大量细胞类型和亚型的混合物,Unico的解卷积可能会因未建模的细胞类型而产生偏倚。
Unico的另一个局限性涉及其无分布方法。通过不遵守预先指定的分布,Unico在理论上非常适合各种数据模式。然而,这种灵活性使其本质上对异常值更加敏感。与参数化方法不同,参数化方法由于依赖特定的分布假设而倾向于降低异常值的权重,而像Unico这样的无分布方法旨在捕获任何基础分布,可能允许异常值对统计推断施加不成比例的影响。研究人员通过在参数估计和统计测试期间排除异常值来仔细解决这个问题。未能正确去除异常值可能导致次优结果(例如,跨数据集调用细胞类型水平DM的一致性较差)。
总之,Unico作为一个统一的跨组学解卷积方法,通过其无分布假设和细胞类型协方差建模的创新方法,为批量基因组学分析提供了细胞类型分辨率的新工具,有望在多种组学数据类型中推动大规模细胞类型特异性研究的发展。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号