DeepWheat:基于深度学习的多组织多品种小麦基因表达与调控活性预测框架及其育种应用价值
【字体:
大
中
小
】
时间:2025年09月30日
来源:Genome Biology 9.4
编辑推荐:
本研究针对小麦等复杂基因组作物中组织特异性基因表达预测困难的问题,开发了DeepWheat深度学习框架,包含DeepEXP和DeepEPI两个模块。通过整合序列与表观基因组特征,实现了跨组织基因表达的高精度预测(PCC 0.82-0.88),并成功预测了表观基因组图谱。在5个小麦品种中验证了模型的鲁棒性,能够识别具有强表达效应的调控变异,为作物功能基因组学和育种提供了强大工具。
随着基因组学技术的飞速发展,科学家们已经能够深入解析作物基因组的奥秘。然而在复杂基因组作物如小麦中,如何准确预测基因在不同组织和发育阶段的表达模式,仍然是一个巨大的挑战。基因表达的时空特异性调控是形成关键农艺性状的基础,但组织特异性预测在复杂作物中始终难以实现。传统的序列模型往往只能预测跨组织的平均表达水平,无法捕捉那些决定重要性状的组织特异性表达模式。
为了突破这一技术瓶颈,中国农业科学院作物科学研究所的马志刚、张佳姿、裴红翠作为共同第一作者,在吕泽甫通讯作者的带领下,在《Genome Biology》发表了题为"DeepWheat: predicting the effects of genomic variants on gene expression and regulatory activities across tissues and varieties in wheat using deep learning"的研究论文。该研究开发了DeepWheat这一广泛适用的深度学习框架,为作物功能基因组学和育种研究提供了强有力的工具。
研究人员采用了多组学整合分析策略,主要关键技术方法包括:基于AK58小麦品种的多组织ATAC-seq、ChIP-seq(使用H3K27ac、H3K27me3、H3K4me3、H3K36me3抗体)和RNA-seq测序技术;基于Basenji2框架优化的DeepEPI深度学习模型用于表观基因组特征预测;整合序列和表观基因组数据的DeepEXP深度学习模型用于基因表达预测;跨品种验证涉及5个不同小麦品种的染色质可及性和转录组数据分析;功能验证采用双荧光素酶报告基因实验验证调控元件功能。
Integrating sequence and epigenomic data improves tissue-specific gene expression prediction in wheat
研究人员首先开发了DeepEXP模型,该模型整合基因组序列和多组学表观基因组数据,来准确预测小麦不同组织和发育阶段的基因表达。通过系统优化发现,转录起始位点(TSS)上游2000bp到下游1500bp以及转录终止位点(TTS)上游500bp到下游200bp的区域是最佳输入区域。DeepEXP在该区域达到了0.82-0.88的皮尔逊相关系数(PCC),显著优于仅基于序列的模型如Basenji2、Xpresso和PhytoExpr。值得注意的是,DeepEXP在拟南芥、水稻和玉米中也表现出更好的预测性能,显示了其广泛适用性。
对于组织特异性基因(组织特异性指数Tau>0.8),仅序列模型表现出明显的性能下降,而DeepEXP在所有组织中仅显示轻微下降,突显了表观基因组特征在捕捉组织特异性表达中的关键作用。在评估不同表观基因组修饰的贡献时,染色质可及性数据在大多数组织中贡献最高,而H3K27me3贡献最小。
Optimizing multi-tissue epigenetic profiling and sequence integration for improved gene expression prediction in wheat
考虑到获取表观基因组数据比基因表达数据成本更高,研究人员开发了DeepEPI来直接从DNA序列预测小麦表观基因组特征。在独立测试集上,预测的染色质可及性和组蛋白修饰与实验值的PCC分别达到0.65-0.79和0.30-0.80。峰值预测的PCC达到0.83-0.94和0.69-0.96。预测和实验的表观基因组分布高度一致,数据质量强烈相关。
通过将序列数据与DeepEPI预测的表观基因组特征整合来预测基因表达,在不同组织和阶段中预测值与实验值的PCC达到0.71-0.74。虽然这一准确度低于使用实验表观基因组数据的组合,但显著高于仅使用序列数据。预测基因表达特异性的频率分布与实验值密切匹配,优于仅序列模型。
Validation of DeepWheat prediction accuracy across 5 wheat varieties
为了验证DeepWheat在不同小麦品种中的预测准确性,研究人员在5个额外小麦品种中生成了染色质可及性和转录组数据。在幼穗组织中,与AK58品种不同的可及染色质区域(ACRs)占总ACRs的6.31%到38.4%,差异表达基因数量从8455到11535个。
通过将DeepEPI预测的表观基因组特征与DNA序列整合来预测基因表达,在穗组织中差异表达基因的预测准确度达到0.62-0.77,在叶片组织中达到0.50-0.71。与仅序列模型相比,DeepWheat模型的基因表达预测准确度明显更高。模型对结构变异(SV)和拷贝数变异(CNV)也表现出良好的鲁棒性。
Prediction of variant effects on regulatory sequence activity and gene expression using DeepWheat
通过归因分析,DeepWheat能够识别对基因表达影响最大的核苷酸位点,这对于阐明遗传变异的影响和发现参与基因表达的关键调控位点至关重要。在评估SNP/INDEL效应时,研究发现约75-85%的SNP和85-95%的INDEL显示显著效应,其中INDEL的效应显著大于SNP。
基于已发表的小麦穗和叶片eQTL数据,研究发现约10%的报道的cis-eQTL与预测的有效调控变异重叠,且cis-eQTL SNP的预测调控效应大小显著高于随机选择的SNP。有效SNP和INDEL主要富集在启动子区域,其次是内含子、外显子、下游区域、3'UTR和5'UTR。有趣的是,不仅在启动子区域观察到较强的调控效应,在5'UTR、3'UTR和内含子中也观察到关键作用。
研究人员还评估了DeepWheat在指导CRE编辑方面的应用。通过对两个差异表达基因的上游启动子区域进行饱和突变,DeepWheat预测特定位点的突变可以改变染色质状态和增强基因表达,双荧光素酶报告实验证实这些突变确实增加了两个基因的表达。
该研究开发的DeepWheat框架代表了作物基因组学研究的重要进展。通过整合深度学习与多组学数据,研究人员成功解决了复杂基因组作物中组织特异性基因表达预测的难题。DeepEXP模型通过结合序列和表观基因组数据,实现了跨组织和发育阶段的高精度基因表达预测,显著优于现有的仅序列模型。DeepEPI模型则能够从DNA序列预测表观基因组特征,为模型在不同品种间的转移提供了可能。
研究结果表明,整合表观基因组数据即使来自非匹配组织,也能有效过滤非活性区域并模拟复杂的序列-染色质相互作用,从而提高组织特异性预测准确性。此外,DeepWheat在不同小麦品种中的成功应用证明了其广泛适用性和鲁棒性,甚至能够耐受调控序列变异和学习SV/CNV相关特征。
更重要的是,DeepWheat不仅能够预测基因表达,还能识别调控序列、评估序列变异对调控活性和基因表达的影响,以及进行饱和突变分析以识别高效位点。这些功能深化了我们对遗传变异如何影响调控网络和表型性状的理解,为 beyond 编码区域的候选突变优先排序提供了有用工具。
基于DeepWheat的虚拟突变分析可以在计算机中模拟调控编辑,减少实验工作量并指导精确的基因组编辑设计。这些特性通过靶向调控干预支持新表型的开发和高效育种策略的制定。
虽然生成高质量表观基因组数据比转录组分析成本更高,但研究发现即使是单组织表观基因组图谱,当与序列特征整合时,也能显著提高预测准确性。跨组织应用会导致性能轻微下降,但仍优于仅序列基线,特别是在组织密切相关时。
总的来说,DeepWheat为预测基因表达和调控活性、优先排序候选突变和指导精确基因组编辑提供了一个多功能框架,为小麦功能基因组学和育种提供了有前景的应用。未来的工作应侧重于扩展用于训练这些模型的表观基因组数据集,纳入更广泛的小麦品种和环境条件数据。此外,整合3D染色质结构数据可能进一步提高预测准确性,并提供对调控元件空间组织的见解。这些努力对于完善预测模型和增强其在不同遗传背景和环境条件下的适用性至关重要。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号