深度学习破译植物转录起始调控的序列密码:从大豆驯化到多物种比较基因组学

【字体: 时间:2025年09月24日 来源:Genome Biology 9.4

编辑推荐:

  本研究通过开发可解释深度学习模型GenoRetriever,结合多作物STRIPE-seq数据,系统解析了植物转录起始位点(TSS)的序列决定因素。研究团队鉴定出27个核心启动子 motif(包括TATA-box和Inr元件),量化了它们对转录起始频率和位置的调控作用,并利用野生大豆T2T基因组揭示31.85%的自然变异引起motif主导类型转换。跨物种分析发现单双子叶植物motif功能保守但分布偏好存在分化,为作物精准育种提供了理论基础和操作平台。

  

植物基因表达调控的核心环节——转录起始过程,长期以来存在着令人困惑的"黑箱"难题。虽然科学家们早已发现TATA-box和起始子(Inr)等经典顺式元件,但植物启动子中仍存在大量未知调控元件,且不同物种间的转录起始规律存在显著差异。更令人不解的是,为什么双向启动子在动物中普遍存在,而在植物中却十分罕见?这些基础问题的悬而未决,严重制约了作物精准育种中基因表达调控策略的开发。

为了破解这些难题,由华中农业大学和中国科学院团队领衔的国际研究小组在《Genome Biology》发表了突破性研究成果。他们成功开发了名为GenoRetriever的可解释深度学习模型,通过整合多作物高分辨率转录起始数据和创新性的算法设计,首次系统揭示了植物转录起始的序列密码,为作物遗传改良提供了强大的理论工具和技术平台。

研究团队采用的核心技术方法主要包括:基于STRIPE-seq(Survey of TRanscription Initiation at Promoter Elements with high-throughput sequencing)的多物种转录起始位点图谱构建;结合人工知识蒸馏的深度卷积神经网络架构;野生大豆(Glycine soja)端粒到端粒(T2T)基因组组装与注释;以及烟草瞬时表达、发根农杆菌介导的基因敲低和CRISPR-Cas9基因编辑等实验验证体系。

碱基分辨率解读序列决定因子并精准预测大豆转录起始

研究团队首先重新分析了8个大豆组织的STRIPE-seq数据,使用栽培大豆Williams 82的T2T参考基因组注释了约40,000个可靠的转录起始区域(TSR)。通过提取以TSS为中心的4,325 bp序列窗口,研究人员构建了GenoRetriever深度学习框架。该模型包含三个核心模块:motif共识网络、补充效应共识网络和特征预测网络。

通过人工知识蒸馏技术,研究团队从15个独立组织的网络训练中鉴定出27个核心序列模式,包括5个短Inr、4个长Inr和18个motif,其中9个为已知元件(如TATA-box、YY1、DREB1),9个为全新发现的未知motif。这些模式根据其编码层响应曲线分为两类:典型motif和起始子元件(Inr)。Inr元件表现出尖锐的局部化效应,而motif则显示更广泛的影响范围。

研究发现,转录起始由motif和Inr元件共同决定,两者对TSS表达水平的贡献相当。平均而言,单个motif的影响有限,明显弱于Inr序列。在Inr组分中,长Inr元件的效应强于短Inr。虽然motif通过TSS区域附近多样化和广泛分布的相互作用发挥作用,但Inr元件在单个位点上显示更固定的位置和数量。

基于27个序列模式和补充特征,预测模型在测试集上达到了75.25%的平均Pearson相关性。值得注意的是,模型的预测准确性与TSS的相对表达丰度呈正相关:预测相关性低于0.40的TSS通常表达水平较低(相对丰度≤0.40),而相对丰度高于0.40的TSS大多表现出约0.80的预测相关性。

精确解释motif对转录起始丰度和定位的影响

研究人员通过"虚拟关闭"单个motif效应的方法,评估了每个motif对TSS信号强度和位置的影响。通过抑制相应卷积核的激活,在单碱基分辨率上比较motif敲除前后的预测信号值,生成量化每个motif对TSS信号影响的效应曲线。

研究观察到不同motif之间存在明显的作用模式差异。例如,TCP20促进TSS周围的转录,而DREB1E主要作为抑制因子发挥作用。此外,一些motif如TATA-box表现出双重效应:在紧邻TSS的位置抑制信号,同时在精确的TSS位置增强转录。

为了进一步评估motif对转录活性的影响,研究人员选择了四个motif(DREB1E、YY1、ABF1和HY5),基于其结合转录因子的特征明确性。对每个motif,在±200-bp窗口内量化了体外motif敲除前后的TSS信号强度相对变化。同时,通过针对五个motif(YY1、TCP20、ABF1、DREB1E和HY5)相关TF的敲低实验进行了平行验证。

研究发现,体外敲除预测与实验数据之间存在强正相关关系;随着建模的motif对TSS丰度的影响变得更加显著,预测准确性(以相关系数衡量)增加。这表明GenoRetriever模型不仅准确预测了motif丢失对TSS信号的定量影响,而且强化了这些motif的丰度调控重要性。

有趣的是,分析显示motif效应不仅限于TSS丰度,还调节TSS的精确定位。基于TATA-box的效应曲线,研究人员注意到其调控影响延伸到定位控制。为了评估这一假设,研究人员选择了在注释TSS的2000 bp上游到500 bp下游窗口内包含motif的启动子。

通过基于傅里叶变换的平方差异方法,研究同时捕获了TSS丰度和位置效应的变化。使用得到的效应分数,将Williams 82中的启动子按照主导motif效应进行分类。引人注目的是,虽然许多启动子主要受TATA-box调控,但相当大的一部分主要受其他motif影响。例如,在很大比例(25.01%)的启动子中观察到TATA-box调控,而单独由YY1 motif主导的启动子很少见。

自然变异在驯化过程中引起的motif效应转移

栽培大豆大约在5000至9000年前从野生大豆驯化而来。为了研究大豆进化过程中关键motif调控模式的变化,研究团队为野生大豆种质PI468916组装了T2T基因组。

通过结合高保真(HiFi)测序、Nanopore超长读长和Hi-C数据,研究人员获得了完整、无间隙的T2T组装结果,并利用六个不同组织的转录组测序数据进行了注释,鉴定出62,237个基因和52.83%的转座因子。

为了解密序列变异如何影响转录起始,研究人员在与Williams 82相同发育阶段收集了PI468916的八个组织样本,使用改良的STRIPE-seq方案捕获TSS图谱。将STRIPE-seq数据映射到新组装的PI468916基因组后,鉴定出覆盖PI468916中24,537个基因的40,667个可靠TSR。

研究人员将PI468916 STRIPE-seq数据与Williams 82的数据整合到GenoRetriever模型中。评估表明,模型预测PI468916中TSS信号的性能与Williams 82相当,为两个品种间的motif模式分析奠定了可靠基础。

比较分析显示,两个品种间motif效应的整体权重分布大体保守,绝对值没有显著变化。然而,当进行跨物种比较各motif的相对比例时,观察到motif效应存在对称的细微差异趋势。这一结果表明,对于给定启动子,主导motif可能在两个大豆类型间发生转移。

研究人员接下来构建了PI468916和Williams 82之间的基因组共线性关系,并鉴定了39,985对TSR用于进一步分析。基于主导motif类型比较了两个品种间作为相同基因组区域对齐的启动子。分析显示,共线性启动子之间确实发生motif转移事件。

在PI468916基因组中,研究人员还检测到8,110,292个相对于Williams 82基因组特异的序列变异。基因附近的位置变异为了解大豆驯化过程中转录起始调控提供了机会。

为了探索序列变异与motif转移之间的联系,研究人员比较了在TSS的2-kb上游和500-bp下游内具有序列变异的启动子中motif转移类型的分布与motif转移的整体分布。结果显示两者之间存在显著差异,支持了序列变异可能是驱动motif转移的重要因素这一假设。

为了进一步确认这一推断,研究人员进行了体外降解实验。在这些实验中,通过将变异核苷酸回复到其替代等位基因来识别关键变异。使用这种方法,研究人员确定了34,226个(13.42%)变异为motif转移现象的关键驱动因子,包括22,654个SNP和11,571个插入缺失。

多尺度序列编辑准确预测转录起始丰度及其应用

尽管已经证明了GenoRetriever在预测STRIPE-seq信号方面的优异性能,但评估模型是否能准确预测基因编辑效果仍然至关重要。为此,研究人员设计了三个层次的虚拟和实验突变 assay:(i)使用烟草叶片瞬时表达进行体外motif插入;(ii)体外motif插入和单核苷酸饱和突变;以及(iii)大豆体内CRISPR-Cas9编辑。

研究人员首先通过将顺式元件插入到所有八个组织中高表达基因GmW82.01G042700(编码硝酸盐转运蛋白1.6,NRT1.6)的启动子中评估了motif尺度编辑。使用GenoRetriever,预测了在TSS相对位置-143 bp随机插入TATA-box和在-220 bp和+18 bp插入YY1 motif的效果。所有三个插入均预测会下调TSS丰度。在烟草叶片瞬时 assays(荧光素酶报告基因)中,观察到的表达变化与GenoRetriever的预测密切匹配,确认模型可靠地预测了motif水平编辑结果。

接下来,通过模拟翻译起始位点(ATG)上游500 bp内每个可能的核苷酸替代和motif敲除,评估了GenoRetriever在单碱基水平的分辨率。对每个变异体,计算了预测的转录起始丰度相对变化。烟草瞬时实验验证了GenoRetriever正确预测了单核苷酸编辑的表达变化方向(上调或下调),证明了其单碱基对分辨率预测能力。

最后,研究人员测试了GenoRetriever在指导实际基因编辑中的实用性。设计了靶向模型基因5' UTR的CRISPR-Cas9引导RNA,并使用模型预测编辑等位基因的TSS丰度相对变化。后续的大豆转化和STRIPE-seq图谱分析显示,在预测表达变化方向方面达到88.23%的准确率,强调了模型的实际应用价值。

单子叶和双子叶植物间motif对转录起始效应的分化

为了拓宽对植物基因组转录起始的理解并验证GenoRetriever的鲁棒性,研究人员将相同的改良STRIPE-seq方案和分析流程应用于六个主要作物的叶片组织:棉花(TM-1)、油菜(ZS11)、小麦(Svevo)、番茄(LA1589)、水稻(ZS97)和玉米(B73)。

研究人员首先使用大豆训练的GenoRetriever共识模型从每个物种的STRIPE-seq数据中提取关键序列模式。在这些多样化作物中鉴定的所有模式都落在大豆发现的集合内,表明转录起始的基本序列决定因子是广泛保守的。

随后评估了三种训练策略:直接应用大豆模型权重、基于每个物种数据对大豆权重进行微调,以及每个物种的从头训练。直接应用在大多数作物中取得了令人满意的性能(平均Pearson相关性r>0.65),反映了共享的调控逻辑。微调模型优于直接预测,揭示了细微的物种特异性差异,并且也超过了从头模型,证明了高质量、多组织大豆数据在增强其他作物单组织预测方面的价值。

为了研究motif调控的进化分化,研究人员对八个物种启动子中每个motif的平均相对效应进行了层次聚类。这一分析将单子叶和双子叶物种清晰分为不同的簇,与其系统发育分化一致,并确认了这些谱系间motif到TSS调控模式存在细微差异。

研究人员检查了八个物种中基于GC和基于AT的motif。在双子叶植物中,GC富集motif对TSS活性的平均效应普遍低于单子叶植物,而AT富集motif则显示相反趋势。这一模式反映了双子叶植物整体基因组和启动子GC含量的较低水平,并支持了谱系特异性碱基组成变化影响motif频率,进而调节其总体调控影响的观点。

研究人员进一步量化了motif出现频率和相对于TSS的位置分布,发现单子叶和双子叶植物间motif效应的变化与motif频率的变化呈正相关(r=0.70)。增加带宽(adjust=5)的核密度估计显示,一些motif如TATA-box具有狭窄的高频率区间,而其他motif如TCP20则显示更宽的区间。值得注意的是,motif与TSS距离的变化与motif效应的变化呈负相关(r=-0.71),表明在进化过程中,关键motif通常更靠近TSS并增加其启动子频率以增强转录起始活性。

研究结论与意义

本研究开发了GenoRetriever,一个可解释的深度学习模型,能够高精度预测植物基因组中的转录起始。通过在多组织大豆数据和三种单子叶、三种双子叶物种上训练模型,两阶段共识网络提取了27个核心序列模式,包括典型motif和起始子元件,GenoRetriever学习了每个模式对转录本丰度和转录起始位点精确定位的贡献。通过虚拟motif插入、体外单核苷酸饱和突变和CRISPR-Cas9启动子编辑验证了这些预测,其中大多数产生了与模型预测高度一致的表达变化。体外降解实验进一步显示,野生和栽培大豆间约31.85%的自然启动子变异在驯化过程中驱动了主导motif的转移。最后,通过为七个作物物种构建个体GenoRetriever模型,确认了核心序列决定因子保持保守,而单子叶和双子叶植物表现出不同的motif到TSS调控模式,由motif频率和与TSS接近度的差异驱动。

GenoRetriever的共识网络架构采用了最初为人类转录起始建模开发的Puffin模型思想,但引入了针对植物基因组的关键修改。使用51个碱基对的大卷积核进行初始motif采样和601个碱基对进行更深层特征提取,捕获了更长和更复杂的植物顺式元件,如三核苷酸起始子。模式发现和信号预测分为两个阶段,motif和补充效应网络首先识别稳健的跨组织序列模式,然后在预测网络中固定这些权重。

尽管在拟南芥、大豆、棉花和玉米中进行了高分辨率TSS分析,但对植物转录起始的理解仍限于少数核心顺式元件如TATA-box和起始子。许多植物启动子缺乏TATA-box但仍能有效起始转录,表明存在额外的未特征化motif。在人类基因组中,双向启动子常见并与增强子RNA产生相关,但在单子叶和双子叶植物中均罕见。GenoRetriever分析提取了七个植物物种中的27个motif,但仅发现一个双向元件DREB1E,为植物中双向转录起始区域稀缺提供了新解释。

序列决定因子的预测和解释是精确设计启动子和其他非编码元件以控制基因表达的基础。为了实现广泛采用,研究人员推出了直观的Web服务器,整合了所有八个物种模型及其STRIPE-seq数据集。用户可以为任何支持的物种探索高分辨率TSS图谱,上传自定义启动子序列进行体外motif插入或单碱基突变,并即时查看对转录起始的预测效果。虽然已在大豆中实验验证了编辑预测,但服务器目前仅支持其他作物的叶片组织数据。从应用视角看,精确启动子编辑提供了转基因过表达的稳定替代方案,后者通常在几代后效力下降。

这项工作提供了首个可解释的深度学习框架,解析了植物转录起始的顺式调控代码。通过整合八个作物的碱基对分辨率STRIPE-seq图谱和野生大豆端粒到端粒组装,GenoRetriever揭示了27个核心序列模式,量化了它们的位置和丰度依赖性效应,并将这些规则推广到单子叶和双子叶植物。从motif插入到CRISPR编辑启动子的实验验证,确认了模型预测既准确又具有因果性。除机制洞察外,GenoRetriever公开可访问的Web服务器支持实时设计启动子编辑,为在不引入外源DNA的情况下调整基因表达提供了实用途径。这些进展共同为比较调控基因组学建立了定量基础,阐明了驯化如何重塑启动子逻辑,并为作物精准育种和合成生物学提供了可扩展工具集。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号