编辑推荐:
在探索基因表达调控和疾病风险机制的道路上,研究人员聚焦于外显子增强子 RNA(eRNA)。他们构建 eRNA 表达的计算机模型,发现 eRNA 的遗传调控表达可预测染色质接触频率。这一成果有助于理解疾病遗传机制,为相关研究提供新方向。
在生命科学的广阔领域中,基因表达调控一直是研究的核心热点。增强子作为基因表达的关键调节元件,其转录产生的增强子 RNA(enhancer RNA,eRNA)却像是隐藏在迷雾中的神秘角色。尽管增强子在调控基因时空表达模式方面的作用已被深入研究,但 eRNA 的生物学功能及其对疾病风险的影响,仍如同未被开垦的处女地,充满未知。过往研究虽暗示 eRNA 在基因转录、染色质修饰、增强子环形成以及细胞命运决定等过程中扮演重要角色,可具体机制却含糊不清。而且,大多数与复杂疾病相关的遗传变异都位于基因组的非编码区域,传统研究方法在解析这些区域的功能时困难重重,这就迫切需要新的研究视角和方法来揭开 eRNA 的神秘面纱,深入探索其在疾病发生发展中的作用机制。
为了攻克这些难题,来自范德堡大学医学中心(Vanderbilt University Medical Center)的研究人员展开了一项极具创新性的研究。他们通过构建计算机模型,深入剖析了 49 种细胞和组织类型中 eRNA 的遗传调控表达,并利用大规模 DNA 生物样本库(N>70,000)和高分辨率 Hi-C 接触数据,训练深度学习模型来预测增强子 - 增强子、增强子 - 基因对的三维染色质接触频率。此外,他们还运用基于 eRNA 的转录组全关联分析(transcriptome-wide association study,TWAS),探索 eRNA 与复杂性状之间的关联,并借助孟德尔随机化(Mendelian randomization)确定这些关联的因果关系。最终,研究成果发表在《Nature Communications》上,为生命科学领域带来了全新的认知和突破。
研究人员在这项研究中运用了多种关键技术方法。首先,利用全基因组测序(whole genome sequencing,WGS)和来自基因型 - 组织表达(Genotype-Tissue Expression,GTEx)项目的 eRNA 表达谱训练 eRNA 和经典基因的遗传调控表达模型。接着,从 4D Nucleome 数据门户获取 K562 白血病细胞系和小脑原代星形胶质细胞的高分辨率 Hi-C 数据集,用于后续分析。然后,通过 S-PrediXcan 工具对精神分裂症(schizophrenia,SCZ)的全基因组关联研究(genome-wide association study,GWAS)汇总统计数据进行基于 eRNA 的 TWAS 分析。最后,运用孟德尔随机化在 MR-JTI 工具中对显著的 TWAS 位点进行因果性检验。
研究结果主要涵盖以下几个方面:
- eRNA 表达的遗传模型:研究人员训练了包含 14471 个转录增强子的 eRNA 表达遗传模型,发现训练数据集中 93.84% 的 eRNA 转录本长度小于 2 kb,具有典型 2D eRNA 特征。与经典基因模型相比,eRNA 模型中可推测转录本比例更低,但平均每个转录本的 SNP 数量更多,这表明 eRNA 表达可能受到更精细的遗传调控,或者是由于增强子序列的快速进化所致。
- GReX 预测染色质接触频率:研究人员将 eRNA 和经典基因模型应用于 BioVU 样本,推算样本水平的遗传调控表达(Genetically regulated expression,GReX),并利用两个高分辨率 Hi-C 数据集训练模型预测染色质接触频率。结果显示,基于 GReX 的深度学习模型在预测染色质接触频率方面表现出色,在全血和小脑中的预测R2值分别达到 0.22 和 0.37 ,且预测结果受基因组距离的影响较小。此外,小脑训练的模型在全血数据上具有较好的跨组织预测性能,而全血训练的模型在小脑数据上预测能力有限,这可能与全血的高度异质性和基因表达的动态变化有关。
- TWAS 鉴定与 SCZ 风险相关的 eRNA 和基因:通过基于 eRNA 的 TWAS 分析,研究人员在精神分裂症风险研究中发现了 392 个显著的增强子 - 组织关联,其中 114 个位于大脑区域。而经典基因的 TWAS 分析则鉴定出 2755 个基因 - 组织关联。进一步分析发现,部分 eRNA 和经典基因的关联在原始 GWAS 中未被发现,表明存在独立于经典基因的 eRNA 与疾病关联。
- 孟德尔随机化揭示 SCZ 风险的因果机制:运用孟德尔随机化,研究人员发现 392 个显著的 TWAS eRNA 关联中有 222 个(56.63%)对精神分裂症具有因果效应,2755 个经典基因关联中有 1297 个(47.07%)被预测为因果关联。在大脑中,因果增强子与因果经典基因之间的物理相互作用比例较低,仅约 4.6%,这表明 eRNA 和基因在精神分裂症风险机制中大多相互独立。
- 探索与 SCZ 相关的因果 eRNA 的表观基因组背景:研究人员利用染色质可及性谱(ATAC-seq 和 DNase-seq)以及功能相关的组蛋白修饰(H3K27ac、H3K27me3 和 H3K4me1)和染色质相关蛋白(RAD21、SMC3、CTCF 和 EP300)的 ChIP-seq 数据,探索大脑特异性因果 eRNA 影响精神分裂症风险的机制。结果显示,这些因果 eRNA 区域与开放染色质相关标记的富集情况支持接触独立模型,即因果转录增强子通过建立开放染色质状态影响精神分裂症风险。
- SCZ 相关 eRNA 中的基序富集分析:对大脑中假定的因果 eRNA 进行基序富集分析,发现 135 个转录因子(transcription factor,TF)的结合基序显著富集,其中一些转录因子(如 EGR2、SOX10、TCF4/ITF2 和 SP4)先前已被证明与精神分裂症相关。这表明遗传调控的 eRNA 表达水平可能通过影响转录因子在疾病相关增强子上的结合,进而影响精神分裂症风险。
- 英国生物样本库中 eRNA 的全表型组 TWAS:研究人员在英国生物样本库中对 4671 种复杂性状进行基于 eRNA 的 TWAS 分析,鉴定出 467 种至少有一个全基因组显著 eRNA 关联的性状,涵盖听力能力、身高、血细胞特征、吸烟状态等多种表型,为研究 eRNA 与复杂性状的关系提供了丰富资源。
- 增强子扰动将 eRNA 与经典靶基因表达联系起来:通过 CRISPR 扰动实验,研究人员发现部分疾病相关 eRNA 可影响经典基因表达,且这些 eRNA 与靶基因之间不存在 Hi-C 接触,也未观察到共享的 SNP eQTL,表明 eRNA 可能独立于染色质接触和共享 eQTL 调节经典基因表达。
- 纳入 eRNA 增加 GWAS 信号的解释力:研究发现 eRNA eQTL 与经典基因 eQTL 的重叠率较低,但考虑 eRNA eQTL 后,可使全基因组关联研究(GWAS)信号中由 eQTL 解释的比例显著增加 63%,表明 eRNA 分析能显著提升对 GWAS 关联的机制性解释能力。
综上所述,该研究成功构建了 eRNA 表达的遗传调控模型,发现 eRNA 的 GReX 可有效预测染色质接触频率,鉴定出众多与精神分裂症等复杂性状相关的 eRNA,并揭示了其潜在的作用机制。同时,研究还表明考虑 eRNA eQTL 能显著增强对 GWAS 信号的解释。然而,研究也存在一定局限性,如 eRNA 表达数据可能未充分代表 2D eRNA,模型在非欧洲血统人群中的普适性有待验证,神经网络模型对三维染色质组织变异的捕捉有限等。尽管如此,这些 eRNA 模型仍为探索基因组中相对未被充分研究的部分提供了有力工具,为未来进一步揭示基因表达调控和疾病发生发展的机制奠定了坚实基础,有望推动生命科学和健康医学领域的深入发展。
下载安捷伦电子书《通过细胞代谢揭示新的药物靶点》探索如何通过代谢分析促进您的药物发现研究
10x Genomics新品Visium HD 开启单细胞分辨率的全转录组空间分析!
欢迎下载Twist《不断变化的CRISPR筛选格局》电子书
单细胞测序入门大讲堂 - 深入了解从第一个单细胞实验设计到数据质控与可视化解析
下载《细胞内蛋白质互作分析方法电子书》