CodonTransformer:多物种密码子优化的深度学习新突破

《Nature Communications》:CodonTransformer: a multispecies codon optimizer using context-aware neural networks

【字体: 时间:2025年04月04日 来源:Nature Communications

编辑推荐:

  在基因表达研究中,传统密码子优化方法存在局限,为解决这一问题,研究人员开展了 CodonTransformer 模型的研究。结果显示,该模型能学习跨生物的密码子使用模式,生成自然样密码子分布且含最少负顺式调控元件的序列,对基因表达研究意义重大。

  在生命的微观世界里,基因表达就像一场精密的交响乐,而密码子则是其中的关键音符。遗传密码的简并性使得许多 DNA 序列能够编码同一种蛋白质,然而,优化密码子使用以满足不同生物的特定偏好却面临着巨大挑战。传统的密码子优化方法,要么依赖选择高频密码子,这可能导致资源耗尽和蛋白质聚集;要么在随机位置插入稀有密码子,进而引发蛋白质错误折叠和核糖体停滞。同时,受进化启发的方法也局限于天然蛋白质和在翻译机制与动力学相似的生物间设计跨物种 DNA 。在这样的背景下,开发更有效的密码子优化方法迫在眉睫。
为了攻克这些难题,来自 Vector Institute for Artificial Intelligence、University of Toronto Scarborough 等机构的研究人员开展了深入研究,最终成功开发出 CodonTransformer 这一多物种深度学习模型。相关研究成果发表在《Nature Communications》上,为基因表达研究领域带来了新的曙光。

研究人员在开展此项研究时,主要运用了以下几个关键技术方法:

  • 采用基于 BigBird Transformer 的架构,利用块稀疏注意力机制处理长序列。
  • 设计特殊的序列表示策略(STREAM),结合生物编码与氨基酸 - 密码子对的标记化,实现多掩蔽学习。
  • 使用大量来自 164 个生物的约 100 万对 DNA - 蛋白质数据进行训练,并对部分基因进行微调。

下面来看具体的研究结果:

  • 具有组合生物 - 氨基酸 - 密码子表示的 Transformer 模型:研究人员选择仅编码器(Encoder-only)架构,并使用掩码语言建模(MLM)方法进行训练。通过设计特殊的字母表和标记化方案,让模型能够学习到不同生物的密码子偏好。同时,利用标记类型(token_type)来指定生物背景,使模型可以适应不同生物的密码子使用情况。最终训练出的基础模型 CodonTransformer,可直接用于跨物种密码子优化,也能针对特定数据集进行微调。
  • CodonTransformer 学习跨生物的密码子使用:通过生成 15 个基因组编码蛋白质的 DNA 序列,并与天然序列对比,发现基础模型生成的序列与天然 DNA 序列匹配密码子比例更高,且具有较高的密码子相似性指数(CSI)。微调后的模型在部分生物上生成的序列 CSI 更接近用于微调的基因组 CSI 。此外,该模型还能预测同义突变的影响,微调后的模型在预测突变对数似然与相对核糖体停滞之间的相关性上表现更优。
  • CodonTransformer 生成具有自然样密码子使用模式的 DNA 序列:以 5 个模型生物为例,通过计算 % MinMax 和动态时间规整(DTW)距离,发现微调后的 CodonTransformer 在生成自然样密码子模式方面表现出色,与其他模型相比,其生成的序列与天然序列的 DTW 距离更小。在 RNA 二级结构约束评估中,微调后的 CodonTransformer 和 Genewiz 在模拟天然 RNA 折叠能量方面表现更好,且 CodonTransformer 能更好地拟合天然 GC 含量。
  • 蛋白质异源表达的模型基准测试:研究人员收集 52 种重组蛋白,使用不同优化工具设计在不同生物中表达的 DNA 序列。通过 Jaccard 指数、序列相似性等指标比较,发现 CodonTransformer 基础模型和微调模型之间的 Jaccard 相似性更高,且在序列相似性上表现出色。在计算 % MinMax 和 DTW 距离时,CodonTransformer 基础模型和微调模型之间的 DTW 距离最小,表明其能稳健地设计出具有自然样密码子分布和 RNA 折叠能量的序列。
  • CodonTransformer 生成具有最少负顺式调控元件的序列:利用 Genescript 工具量化不同工具设计序列中的负顺式调控元件数量,发现 CodonTransformer 基础模型和微调模型在所有 5 个生物中都能稳健地生成含最少负顺式调控元件的序列,且微调模型在大肠杆菌中能进一步减少负顺式调控元件数量。

综合以上研究,CodonTransformer 模型具有多方面的优势。它通过多物种训练,能够学习并为多种宿主生物生成密码子优化序列;微调步骤可根据用户定义的基因集进一步调整模型性能;模型能够学习长程密码子模式,生成自然样密码子分布的序列,避免潜在的蛋白质折叠问题;同时,还能生成含最少负顺式调控元件的序列,减少对宿主生物基因表达的干扰。这些优势使得 CodonTransformer 成为基因表达研究领域的有力工具,为未来的蛋白质设计、生物治疗等研究提供了新的思路和方法,推动了生命科学领域的发展。

涓嬭浇瀹夋嵎浼︾數瀛愪功銆婇€氳繃缁嗚優浠h阿鎻ず鏂扮殑鑽墿闈剁偣銆嬫帰绱㈠浣曢€氳繃浠h阿鍒嗘瀽淇冭繘鎮ㄧ殑鑽墿鍙戠幇鐮旂┒

10x Genomics鏂板搧Visium HD 寮€鍚崟缁嗚優鍒嗚鲸鐜囩殑鍏ㄨ浆褰曠粍绌洪棿鍒嗘瀽锛�

娆㈣繋涓嬭浇Twist銆婁笉鏂彉鍖栫殑CRISPR绛涢€夋牸灞€銆嬬數瀛愪功

鍗曠粏鑳炴祴搴忓叆闂ㄥぇ璁插爞 - 娣卞叆浜嗚В浠庣涓€涓崟缁嗚優瀹為獙璁捐鍒版暟鎹川鎺т笌鍙鍖栬В鏋�

涓嬭浇銆婄粏鑳炲唴铔嬬櫧璐ㄤ簰浣滃垎鏋愭柟娉曠數瀛愪功銆�

相关新闻
生物通微信公众号
微信
新浪微博

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号