
-
生物通官微
陪你抓住生命科技
跳动的脉搏
评估预训练DNA语言模型在调控基因组学中的表征能力:现状与挑战
【字体: 大 中 小 】 时间:2025年07月16日 来源:Genome Biology 10.1
编辑推荐:
本研究针对当前基因组语言模型(gLM)在非编码基因组中的表征能力展开系统评估。研究人员通过设计6项功能性基因组学预测任务,比较了Nucleotide Transformer、DNABERT2、HyenaDNA等预训练模型与常规机器学习方法的性能差异。结果表明,当前gLM在未经微调时对细胞类型特异性调控元件的表征能力有限,其嵌入表示并未显著优于传统单热编码方法。该研究揭示了现有预训练策略在非编码基因组应用中的局限性,为改进基因组基础模型提供了重要参考。
在基因组学研究领域,非编码区域占人类基因组的98%,却仍是理解基因调控机制的"暗物质"。随着深度学习技术的发展,基因组语言模型(gLM)通过自监督学习方式预训练DNA序列,被认为可能破解这些调控密码。然而,这些模型是否真正掌握了细胞类型特异性的调控规则?来自冷泉港实验室(Simons Center for Quantitative Biology, Cold Spring Harbor Laboratory)的研究团队在《Genome Biology》发表的重要研究,对当前主流gLM的表征能力进行了迄今为止最全面的评估。
研究人员采用6个关键实验技术:(1)基于lentiMPRA的细胞类型特异性调控活性测定;(2)ChIP-seq分析转录因子结合位点;(3)MPRA数据的零样本变异效应预测;(4)RNA-seq定量分析可变剪接;(5)INSERT-seq测量RNA聚合酶II延伸潜能;(6)eCLIP-seq鉴定RNA结合蛋白结合位点。通过系统比较Nucleotide Transformer、DNABERT2等模型与常规方法的性能差异,揭示了gLM在调控基因组学应用中的真实表现。
研究发现,使用gLM嵌入训练的CNN模型表现普遍低于单热编码基线,仅定制训练的GPN模型例外。特别值得注意的是,线性模型或MLP处理CLS标记时性能显著低于处理完整嵌入的CNN,表明gLM的序列摘要表示可能丢失关键调控信息。
在GM12878细胞的10个TF结合预测任务中,gLM嵌入再次表现平平。引人深思的是,基于核苷酸转换器CLS标记的MLP仅略优于二核苷酸频率模型,暗示gLM可能未在预训练中有效编码TF相关特征。
所有测试的gLM在定量预测HepG2和K562细胞的单核苷酸变异效应时表现欠佳。相比之下,基于lentiMPRA数据微调的CNN和使用单热编码训练的监督模型(如Enformer)则展现出显著优势。
在可变剪接预测、RNA聚合酶II延伸潜能和RBP结合预测任务中,gLM的表现同样不尽如人意。有趣的是,专门针对RNA结合蛋白设计的监督模型表现优异,突显了任务特异性预训练的重要性。
通过熵差分析等解释性方法,研究发现预训练gLM的归因图谱难以识别已知调控模式,而监督模型则能清晰识别功能元件。这一发现暗示当前gLM可能主要学习低水平序列统计特征,而非真正的生物学调控规则。
这项研究的重要结论在于:当前基于全基因组预训练的gLM尚未成为非编码基因组的"基础模型"。与蛋白质语言模型不同,DNA序列的高熵特性和细胞类型特异性使传统语言建模目标面临独特挑战。研究建议未来工作应关注:(1)开发区域特异性预训练策略;(2)整合功能基因组学数据;(3)设计更适合非编码区域的模型架构。这些发现为基因组深度学习领域确立了关键基准,将指导下一代基因组基础模型的开发方向。
值得注意的是,轻量级架构如GPN和HyenaDNA的表现优于大型Transformer模型,提示模型规模并非解决基因组表征问题的万能钥匙。该研究强调,直接移植自然语言处理范式可能收效有限,必须发展符合基因组生物学特性的预训练方法,才能真正解锁非编码区域的奥秘。
生物通微信公众号
知名企业招聘