ETNet:基于可解释Transformer架构的增强子-增强子互作预测模型及其跨语境迁移能力研究
《Briefings in Bioinformatics》:ETNet: an interpretable transformer framework for enhancer–enhancer interaction prediction with cross-context transferability
【字体:
大
中
小
】
时间:2025年12月01日
来源:Briefings in Bioinformatics 7.7
编辑推荐:
本研究针对增强子-增强子相互作用(EEI)预测的计算挑战,开发了集成卷积神经网络与Transformer模块的ETNet深度学习框架。该模型在GM12878、K562和MCF-7细胞系中表现出优于现有方法的性能,通过DeLong检验在六种细胞系中验证了统计显著性。研究发现76.7%的增强子对呈现超加性协同效应,并成功识别GATA2、PAX5等细胞类型特异性调控 motif。该框架为解析染色质三维互作机制提供了兼具预测能力与解释性的新范式。
在基因组调控的复杂交响乐中,增强子如同隐藏在DNA序列中的指挥家,通过远程调控基因表达节奏。尽管增强子-启动子相互作用(EPI)研究已取得显著进展,但增强子之间的"对话"机制——增强子-增强子相互作用(EEI)却仍是一片亟待探索的领域。传统实验方法如ChIA-PET和Hi-C虽能捕捉染色质三维互作,却受限于高测序深度和细胞类型特异性挑战,这促使计算生物学界寻求更高效的预测工具。
现有计算方法多聚焦于EPI预测,而专门针对EEI的深度学习模型尚属空白。EnContact作为当前唯一的EEI专用预测方法,其性能仍有提升空间。更关键的是,增强子协同效应表现出超加性特征——多个增强子共同作用时产生的调控效果远超各自独立作用之和,这种非线性互作模式对预测模型提出了更高要求。
针对这一挑战,安徽医科大学沈银团队开发了ETNet(Enhancer-enhancer Interaction Explainable Transformer Network),创新性地将卷积神经网络(CNN)的局部特征提取能力与Transformer的全局依赖建模相结合。该研究发表于《Briefings in Bioinformatics》,通过系统验证表明,ETNet不仅能准确预测EEI,还展现出卓越的跨细胞类型迁移学习能力,甚至能泛化至增强子-启动子相互作用预测任务。
研究人员采用ChIA-PET数据构建了GM12878、K562和MCF-7三种细胞系的EEI数据集,通过FANTOM5数据库获取许可型增强子,采用2000bp标准窗口进行序列标准化。模型架构包含CNN模块(128个9×9卷积核)用于局部motif识别,Transformer模块(8头注意力机制)捕获长程依赖关系,最后通过分类头实现相互作用预测。关键技术包括DeepLIFT特征归因分析、贪婪搜索算法识别功能区域,以及选择性微调策略实现跨细胞类型知识迁移。
通过系统评估不同网络深度对预测性能的影响,研究发现单层卷积架构在避免生物噪声干扰方面表现最优。序列长度验证表明,2000bp标准化窗口能均衡覆盖各种尺寸的增强子区域,在不同尺寸增强子类别间性能差异不足1%。Transformer架构在捕获长程依赖关系方面显著优于BLSTM、BGRU等传统序列建模方法,8头注意力机制实现了特征丰富性与计算效率的最佳平衡。
与EnContact、deepPHiC等9种基线方法的全面对比显示,ETNet在三种细胞系中均取得最优性能:GM12878(AUC 0.875)、K562(AUC 0.959)、MCF-7(AUC 0.982)。通过DeLong检验在六个细胞系(增加IMR90、HCT116、HCASMC)验证了性能提升的统计显著性(P<0.05)。负样本生成策略比较发现,随机配对与距离匹配策略性能差异仅0.016 AUC,表明模型稳健性。
选择性微调策略(仅调整输入输出层)显著提升跨细胞预测性能,如GM12878→MCF-7转移中AUC从0.700提升至0.914。与EnContact的对比实验显示,ETNet在全部细胞对组合中均保持优势(如K562→MCF-7:0.927 vs 0.867),证明完整Transformer编码器架构能更好学习细胞类型不变特征。
DeepLIFT分析发现76.7%的增强子对呈现超加性协同效应,且协同强度与序列相似性呈负相关(r=-0.407)。motif富集分析成功识别细胞类型特异性调控因子:K562中GATA2(249次)、GM12878中PAX5(22次)、MCF-7中FOXA1(12次),与实验证据高度一致。
对JAK-STAT通路基因中6个增强区SNP的分析显示,JAK2、SOCS1和PTPN2变异引起平均3.75%预测值变化,而IRF3、IL7R和JAK3变异仅导致0.09%变化,与表达数据模式相符,为实验验证提供候选靶点。
基于dbSUPER数据库的分析显示,ETNet能有效捕捉超级增强子内相互作用(SE_intra),其预测精度(AUC 0.914-0.988)显著高于非超级增强子相互作用(SE_out)。注意力权重分析揭示了超级增强子内的层级空间组织模式。
这项研究通过创新性的架构设计,成功解决了EEI预测中的关键挑战。ETNet不仅展示了优异的预测性能,其发现的超加性协同效应和序列互补性规律,为理解增强子协作机制提供了新视角。特征归因分析恢复的细胞类型特异性motif与已知生物学知识高度一致,证明了模型的理论可靠性。虽然SNP效应分析等发现仍需实验验证,但该框架为系统解析非编码区变异的功能影响提供了可行路径。未来整合表观遗传特征和多组学数据,将进一步推动三维基因组调控机制的解密进程。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号