基于进化信息约束的RNA三维模体与二级结构全集成预测方法CaCoFold-R3D

【字体: 时间:2025年10月04日 来源:Nature Methods 32.1

编辑推荐:

  《自然·方法》推荐:本研究针对RNA三维模体预测与二级结构预测长期割裂的问题,开发了CaCoFold-R3D概率语法模型。该模型利用进化协变信息同时预测RNA二级结构(包括假结)和96种三维模体,实现了"一次性、全位点、全类型"的集成预测。该方法运行高效,在Rfam数据库验证中准确识别了44种已知模体中的41种,为RNA结构预测与药物设计提供了新范式。

  
在生命科学领域,RNA分子远比我们想象的要复杂——它们不仅是遗传信息的传递者,更是许多细胞过程的关键调控者。这些功能的实现往往依赖于RNA分子精确的三维结构,特别是那些在环区(loop regions)形成的复杂三维模体(3D motifs)。这些模体通常由非沃森-克里克配对(non-Watson-Crick interactions)构成,虽然长度较短(通常只有4-20个核苷酸),却在稳定RNA三级结构和实现特定功能方面发挥着至关重要的作用。
然而,准确预测这些三维模体一直是个巨大挑战。传统的RNA结构预测方法主要关注二级结构(secondary structure),即由沃森-克里克配对形成的双螺旋结构。虽然已有一些方法尝试预测三维模体,如RMDetect、JAR3D和BayesPairing2等,但它们都存在明显局限:要么只能一次预测一种模体,计算效率低下;要么需要预先知道模体可能出现的位置;要么严重依赖特定家族的训练数据,泛化能力有限。更重要的是,这些方法都无法将三维模体预测与二级结构预测真正集成起来,而是相互割裂的两个过程。
为了解决这一根本性问题,哈佛大学的Aayush Karan和Elena Rivas在《Nature Methods》上发表了开创性研究成果,开发了名为CaCoFold-R3D的全新计算方法。这项研究的核心创新在于提出了一个统一的概率语法模型,能够同时预测RNA的二级结构(包括嵌套螺旋和假结)和三维模体,真正实现了"一次性全预测"(all-at-once)。
研究人员开发了多个关键技术方法:基于协变分析的进化信息约束框架,使用R-scape工具从多序列比对中提取显著协变碱基对;扩展的概率语法模型(RBGJ3J4-R3D),将经典的RNA二级结构语法与三维模体语法(R3D grammars)无缝集成;六类三维模体的统一描述体系,涵盖发夹环、凸环、内环、三向连接、四向连接和分支片段;基于profile HMMs的序列模体建模,能够处理模体内的序列变异;多层结构预测算法,首先预测嵌套的二级结构和三维模体,然后添加有协变支持的假结和三级相互作用。
研究结果部分展示了该方法的多个突破性优势:
"CaCoFold-R3D:协变约束的RNA三维模体预测"部分通过图1展示了算法的整体框架。该方法输入序列或多序列比对,输出包含RNA三维模体和典型螺旋的RNA结构。算法采用分层策略,第一层使用RGBJ3J4-R3D语法预测包含三维模体的二级结构,其余层使用G6X语法添加有协变证据的假结和其他三级碱基对相互作用。
"与其他方法的比较"部分显示,CaCoFold-R3D与现有方法相比具有独特优势。与MC-Fold、RNA-MoIP和RNAwolf等方法不同,CaCoFold-R3D直接预测三维模体而不仅仅是扩展相互作用类型。与RMDetect和BayesPairing2相比,CaCoFold-R3D能够同时预测所有模体而非一次一个,且计算效率更高,能够处理核糖体RNA等大型分子。
"RBGJ3J4-R3D:单一SCFG预测螺旋和三维模体"部分通过图2展示了RBGJ3J4-R3D模型的详细结构。该SCFG同时推断嵌套典型螺旋的二级结构和存在于任何环区的RNA三维模体,结合了RBGJ3J4语法和R3D RNA三维模体语法库,专门针对RNA结构中最常见的三向(J3)和四向(J4)连接进行了优化。
"R3D:六种架构描述所有类型环中的模体"部分通过图3阐述了R3D语法的关键洞察。RNA三维模体具有由一组(大部分保守的)非沃森-克里克配对决定的结构组件和基于序列的组件,R3D语法使用特定于每类模体的profile SCFGs描述结构组件,使用profile HMMs允许序列变异。
"R3D原型:进化框架对模体的重要性"部分通过表1验证了添加协变信息极大提高了模体预测准确性。在测试的三种阳性RNA中,GNRA四环和K-turn检测的总体灵敏度从84%提高到95%,同时显著减少了假阳性。
"50多个 recurrent RNA三维模体的R3D SCFG profiles"部分通过图4和扩展数据图3展示了该方法涵盖的模体范围。研究人员收集了51种不同的模体架构,涵盖96种非冗余的RNA模体变体,包括GNRA四环、T环、UNCG四环、U-turn、GAGAU五环、CsrA结合模体、对接肘部、K-turn-b、C环、Loop E、G凸环、pK-turn、Hook-turn、J4a/4b内环、锤头状核酶J3连接、TPP核糖开关J3连接、HCV IRES J4连接、U1剪接体RNA J4连接、T环结构域和CRC结合结构域等。
"Rfam比对结果"部分通过图5和扩展数据表1展示了在Rfam数据库上的全面测试结果。CaCoFold-R3D成功检测了U3 snoRNA、U4 snRNA和另外四个新K-turn中的K-turn,以及SAM核糖开关中的K-turn。在5S rRNA中同时观察到Loop E模体,在T-box核糖开关中观察到两个G凸起模体,在镁核糖开关中观察到J4a/4b三维模体,在TPP核糖开关中观察到T环模体及其特征性J3连接。特别值得注意的是,在CsrB RNA中识别出12个结合模体,在谷氨酰胺核糖开关中通过两个R3D分支段模体识别出发生在涉及假结的多环中的Loop E模体。
"性能与其他方法的比较"部分通过扩展数据表2显示,CaCoFold-R3D在检测已知三维模体方面与现有方法相比具有竞争力或更优性能。该方法不仅检测到了可比文献中提到的所有模体,还检测到了许多新模体,特别是内环和多环连接模体,这是其他方法未曾报告的。
"高代表性的新J3连接模体"部分通过扩展数据图4展示了一个新发现的模体。在group II内含子RNA的一个环中,Rfam描述了一个通用左凸起,但CaCoFold分析推断这实际上是一个J3连接,在序列上非常保守,并且被所有三个闭合螺旋中的协变精细框架化。晶体结构证实了两个相邻螺旋的共轴堆积以及孤独碱基对,并报告了J3连接内的一个非沃森-克里克碱基对。
"时间性能"部分显示CaCoFold-R3D具有高效的计算性能。在Apple M3 Max(128 GB)上,98%的Rfam家族(4,079/4,178)运行CaCoFold-R3D端到端所需时间少于60秒,95%的家族所需时间少于30秒。对于最长的真核SSU rRNA(长度1,978,90条序列)需要32分钟,真核LSU rRNA(长度3,680,88条序列)需要2.9小时。
研究结论和讨论部分强调,CaCoFold-R3D将多个独特特征结合在一起,使RNA三维模体的预测准确、与二级结构完全集成,并带有预期可靠性的注释。R3D语法将不同的三维模体抽象为六种通用设计,释放了合并任意数量和种类模体的能力;RBGJ3J4语法指定了RNA分子中所有可能的环,允许在序列内任何可能位置进行模体检测;CaCoFold-R3D完全概率化,可以计算所有结构模体与所有嵌套螺旋、假结和三联体的联合概率。
该方法灵活且易于定制,研究人员引入了一个最具代表性的三维模体核心集,包括一个新的J3连接。由于计算速度快,能够为所有Rfam家族提供完整预测,包括核糖体RNA。由于CaCoFold-R3D由比对中包含的进化信息框架化,它提供了关于预测置信度的信息,作为从输入比对中提取的显著协变碱基对数量的函数。
这些结果表明,R3D语法与协变信息相结合,为识别结构RNA序列中关键三维模体提供了一个准确可靠的预测范式,并成为发现新颖三维模体的最佳工具。CaCoFold-R3D将促进RNA结构中存在的结构元件数据库的构建,这可能实现与蛋白质结构域数据库类似的相关性。
此外,CaCoFold-R3D是一个为RNA三维结构预测的深度学习方法提供有价值数据的工具。二级结构是通知RNA三维结构预测方法(如MC-Sym)中关键的信息来源,但大多数方法忽略了环中存在的丰富信息。CaCoFold-R3D能够在一个单一预测中联合预测二级和三维模体,为轻松提取这些信息并将其用于经过RNA序列和比对训练的方法打开了大门,以实现更稳健的RNA三维结构预测。
特别重要的是,CaCoFold-R3D有望在靶向RNA结合位点的小分子药物疗法中产生影响。如risdiplam(用于脊髓性肌萎缩症)等RNA治疗化合物依赖于形成有利结合口袋的RNA环的存在。CaCoFold-R3D被证明具有关于RNA环内关键结构元件的重要预测信息,这可能极大地帮助指导设计那些环构型作为小分子药物治疗靶点的RNA。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号