BRAIN-MAGNET:基于功能基因组学图谱和非编码变异解读的人工智能模型

《Cell》:BRAIN-MAGNET: A functional genomics atlas for interpretation of non-coding variants

【字体: 时间:2025年11月20日 来源:Cell 42.5

编辑推荐:

  本研究针对非编码变异功能解读的难题,通过染色质免疫沉淀结合自转录活性调控区测序(ChIP-STARR-seq)技术,在神经干细胞中构建了包含148,198个调控元件的功能基因组学图谱。基于此图谱开发了卷积神经网络模型BRAIN-MAGNET,能够从DNA序列预测增强子活性,并成功应用于精神疾病GWAS位点精细定位和罕见神经发育障碍病例的致病非编码变异优先排序。该研究为神经发育和神经系统疾病中非编码变异的解读提供了重要资源。

  
人类基因组中约98%的序列不直接编码蛋白质,却蕴含着大多数遗传变异。随着基因组测序技术的进步,解读非编码基因组序列和变异的功能影响仍然是一个重大挑战。全基因组关联研究(GWAS)发现的大量常见单核苷酸多态性(SNP)缺乏明确的生物学功能和与基因调控的直接联系。在罕见疾病领域,即使使用全基因组测序(WGS),当前的诊断检测主要关注影响蛋白质编码基因的变异,导致仅在30%-50%的受影响个体中识别出遗传原因。由于大多数非编码遗传变异在临床环境中未被常规评估,且越来越多的证据表明非编码调控元件(NCRE)如增强子的遗传改变可导致疾病,目前未识别的致病变异很可能位于非编码区域。
为了解决这一问题,荷兰伊拉斯姆斯MC大学医学中心的Tahsin Stefan Barakat团队在《Cell》杂志上发表了最新研究成果。研究人员通过染色质免疫沉淀结合自转录活性调控区测序(ChIP-STARR-seq)技术,在人类大脑发育的细胞模型中功能性地注释了非编码调控元件,构建了一个包含148,198个功能测试的非编码调控元件的综合图谱。
研究团队首先在神经干细胞(NSC)中应用ChIP-STARR-seq技术,通过对YY1、SOX2转录因子以及H3K4me1、H3K27ac组蛋白修饰进行免疫沉淀,富集潜在的调控元件。将这些序列克隆到STARR-seq报告质粒的3'UTR区域,通过测量GFP表达水平来定量评估每个元件的增强子活性。研究人员建立了148,198个支架区域,将其按活性分为5个类别,并特别关注了活性最高的前10%的NCRE。
研究发现,高活性的NSC NCRE与靶基因的表达水平升高和功能缺失(LoF)不耐受性相关。这些高度活跃的NCRE显示出更强的序列约束性,并富含转录因子结合基序,包括YY1和p53家族成员,以及灵长类特异性的MER61和LTR10转座元件(TE),为了解NSC基因调控机制提供了新见解。
通过比较相同的序列在胚胎干细胞(ESC)和NSC中的活性,研究人员发现了细胞类型特异性的NCRE活性,并伴随着表观基因组的重新布线,突出了在神经分化过程中被"预激活"的NCRE。这些预激活的NCRE在ESC中具有开放染色质和H3K4甲基化特征,但缺乏典型的活性增强子标记如H3K27ac。
基于这一功能基因组学图谱,研究团队开发了BRAIN-MAGNET(面向大脑的人工智能基因组分析方法,用于非编码调控元件突变靶点),这是一个经过功能验证的卷积神经网络(CNN)模型,能够从DNA序列组成预测NCRE活性,并识别对NCRE功能至关重要的核苷酸。BRAIN-MAGNET能够对常见神经性状的GWAS位点进行精细定位,并在遗传未解释的神经遗传疾病个体中优先排序候选致病性罕见非编码变异。
关键技术方法包括:ChIP-STARR-seq技术用于功能性注释NCRE;深度学习框架构建BRAIN-MAGNET模型;转基因斑马鱼报告实验验证NCRE功能;利用 Genomics England 100,000 Genomes Project 队列进行罕见变异分析。
研究结果显示,ChIP-STARR-seq成功鉴定了NSC中的功能活性NCRE。活性NCRE的排名与假定靶基因的表达水平相关,活性最高的NCRE与最高表达的基因相关。这些NCRE在不同活性类别中显示出不同的序列特征,包括序列约束性、TF基序和TE富集模式的差异。
比较性ChIP-STARR-seq鉴定了在ESC中预激活的NCRE。研究人员发现,一些在ESC中显示高 episomal 活性的NCRE在內源性位点可能处于"预激活"状态,准备在后续发育阶段被激活。
BRAIN-MAGNET能够从DNA序列预测NCRE活性。该模型在预测实验测量的NCRE活性方面表现出高精度,能够识别对NCRE功能重要的核苷酸和基序。通过实验验证,研究人员证实了BRAIN-MAGNET预测的功能相关性:删除或突变高贡献评分的TF基序会显著影响NCRE活性,而改变低贡献评分区域则无影响。
在应用方面,BRAIN-MAGNET能够优先排序常见疾病中的基因组变异。研究人员发现,与经过功能验证的daSNV相比,非daSNV的BRAIN-MAGNET贡献评分显著更高,而GERP、LINSIGHT、CADD、ncER、GPN-MSA、Sei和Enformer等其他评分方法则未显示显著差异。
更重要的是,BRAIN-MAGNET能够优先排序罕见疾病中的基因组变异以识别增强子病。研究人员在 Genomics England 100,000 Genomes Project 的未解神经发育障碍病例中鉴定了位于高置信度基序中的罕见变异,并通过实验验证了这些变异对NCRE活性的影响。特别值得一提的是,在一个临床诊断为Charcot-Marie-Tooth疾病的未解病例中,发现了一个影响RAB7A基因上游NCRE中ZFP42/YY1结合基序的杂合变异,该变异显著降低了NCRE活性。进一步的CRISPRi实验和斑马鱼转基因报告实验证实了该NCRE对RAB7A表达的调控作用,以及患者特异性变异导致的NCRE功能异常,表明这可能是一个以前未被认识的增强子病。
研究的讨论部分指出,尽管ChIP-STARR-seq是一种episomal MPRA(大规模并行报告 assay),但先前的研究表明,许多MPRA发现在改变內源性NCRE时可以得到重现。为了尽量减少episodal方法可能带来的混淆效应,研究人员从NSC中带有与活性NCRE相关的组蛋白修饰的染色质生成ChIP-STARR-seq质粒文库,并进一步用对NSC和基因调控重要的TF结合序列富集这些质粒文库。
当涉及非编码变异效应解读时,最大的概念挑战之一是NCRE破坏性变异的临床表型不一定等于该NCRE调控基因的蛋白质编码致病变异的表型。因此,当发现一个强烈影响NCRE功能的变异时,其相关表型可能与靶基因的已知表型相似,但也可能仅引起"部分已知综合征"或以前未被认识的表型,这可能使此类变异的临床解读复杂化。
该研究的局限性包括:MPRA测量的是episomal NCRE活性,不在自然染色质环境中进行,因此结果可能不总是反映內源性NCRE活性;MPRA结果是在特定细胞类型中获得的,细胞类型特异性发现和CNN模型识别的规则如何推广到其他细胞类型仍有待研究;尽管该资源可用于基于BRAIN-MAGNET贡献评分和优先基序优先排序非编码变异对NCRE活性的功能影响,但关于此类变异的致病性得出最终结论仍然具有挑战性。
总之,这项研究提供了一个功能确定的NCRE图谱和一个强大的AI工具BRAIN-MAGNET,为解读神经发育和神经系统疾病中的非编码遗传变异提供了重要资源。通过整合实验功能注释和深度学习预测,该研究推进了对调控基因组的理解,并提供了识别以前未被认识的增强子病的新途径。随着更多功能验证的非编码致病性变异数据的积累,这类资源有望在未来临床遗传诊断中发挥重要作用。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号