综述:直系同源物功能演化的多层级视角

《Journal of Molecular Evolution》:A Multi-level Perspective on the Evolution of Orthologs and Their Functions

【字体: 时间:2025年10月19日 来源:Journal of Molecular Evolution 1.8

编辑推荐:

  这篇综述挑战了直系同源物(orthologs)必然功能等同的传统观点,主张将其视为需严格检验的零假设。作者提出一个多层级分析框架,整合功能背景(如代谢通路)和生化活性(如蛋白结构域)的证据,以系统评估功能分化。该文为大规模比较基因组学中精准进行功能注释转移(Gene Ontology, KEGG)提供了方法论指导,并强调开发量化功能分化的新指标(如FAS评分、AlphaMissense)是未来重要方向。

  
引言
生物学的一个核心挑战是将生物体的表型与其基因型联系起来。虽然基因敲除等实验方法能提供基因在特定物种中影响表型的直接证据,但这些方法耗时、昂贵,且通常仅限于少数模式生物。随着基因组序列数量的指数级增长,如何将基因功能信息从模式生物转移到非模式生物变得至关重要。直系同源物,即通过物种形成事件而分化的进化相关基因,被认为是跨物种识别功能等效基因的理想候选者。然而,直系同源物并非对功能分化免疫。未能识别这种分化实例会导致错误的功能注释转移。
直系同源物与功能等效性的重新审视
普遍观点认为,直系同源物在不同物种中执行相同功能。这一观点通常基于“直系同源猜想”(ortholog conjecture),该猜想指出“两个物种中功能等效的蛋白质很可能是直系同源物”,但并未断言所有直系同源物必然执行等效功能。事实上,有充分证据表明直系同源物确实可以发生功能分化。例如,用人类的1:1直系同源物替换酵母必需基因时,仅有40%的案例能产生存活细胞,这表明大多数直系同源物在漫长进化过程中已发生功能分化。
功能多样化可归因于两个在不同尺度上起作用的过程:基因“生化活性”(biochemical activity)的改变和其“功能背景”(functional context)的改变。生化活性是指基因的因果效应,例如编码蛋白结合特定分子或催化生化反应的能力。功能背景则指基因生化活性所嵌入的更广泛过程,如代谢通路或多蛋白复合体。基因本体(Gene Ontology, GO)通过“分子功能”(Molecular Function)、“生物过程”(Biological Process)和“细胞组分”(Cellular Component)这三个类别来捕捉这种关系。
检测功能的分化
基因的功能由其生化活性及其所处的功能相互作用网络共同定义。在转移直系同源物的功能注释时,必须采用系统级视角,评估相关相互作用伙伴的直系同源物是否与目标直系同源物共存。这种评估应在系统发育多样化的类群中进行,以区分真正的谱系特异性适应和背景噪声。
例如,通过追踪古菌中真核核糖体生物发生的功能组件、纤毛形成蛋白复合体或人类病原体中的毒力相关基因簇,研究人员发现了功能背景的改变。值得注意的是,仅检测到系统中一个或少数几个组件的情况需要谨慎解读,这可能表明祖先复杂的功能系统被简化,或者缺失的组件由共生伙伴提供。
生化活性的多样化
生化活性和功能背景的等效性是分析直系同源物的零假设。需要有能力产生严格挑战这一假设结果的方法。实验表征是推断蛋白质生化活性的金标准,但计算研究也极大地促进了对进化相关蛋白质生化活性多样化驱动因素的理解。
比较分析表明,蛋白质结构域的重排、结构域内的修饰,甚至单个氨基酸残基的改变都可能导致直系同源物活性的变化。因此,需要一个多尺度方法来全面挑战直系同源物活性等效的假设。这使我们能够逐步提高比较分析的分辨率,以识别可能影响直系同源物所执行生化活性的进化变化。
特征架构的变化
蛋白质的功能分析通常涉及注释与其活性直接或间接相关的氨基酸序列特征。蛋白质特征架构(Feature Architecture, FA)的改变与蛋白质活性的变化相关。因此,直系同源物之间FA差异的程度可用于挑战生化活性等效的零假设。
然而,FA差异的缺失并不意味功能等效。FA分析受限于所使用的特征空间。生物序列景观广阔,大部分尚未探索。尽管结构域和保守区域数据库在扩展,但它们仍然不完整,这可能导致低估功能分化。此外,FA分析必须考虑底层特征模型的构建方式。为避免过拟合,训练模型的数据应最大化序列多样性,但这种通用方法可能导致活性已分化的同源特征仍对同一模型产生显著命中,从而掩盖功能分化的信号。
寻找适当的分辨率层级
从方法学上讲,从FA比较过渡到最高分辨率层级——单个序列位点是直接的。大量例子表明,替换一个或少数几个氨基酸可以改变直系同源蛋白的生化活性。随着AlphaFold的出现,直系同源物现在也可以在预测的3D蛋白质结构水平上进行检验。与序列水平分析一样,结构偏差可能预示着功能变化。然而,序列和结构比较都处于一个需要额外上下文信息来区分有意义的、改变活性的变化和背景变异的分辨率水平。在许多情况下,这种中间分辨率层级可能特定于手头的研究问题。
多层级视角在行动:以SARS-CoV-2为例
SARS-CoV-2属于冠状病毒科(Coronaviridae)中的SARS相关冠状病毒(Sarbecovirus)。大多数冠状病毒仅引起轻微呼吸道症状,而SARS-CoV-1和SARS-CoV-2是显著例外。追踪将这些强效人类病原体与其他冠状病毒区分开来的进化适应对于理解新健康威胁的出现至关重要。
在基因存在-缺失水平和更细粒度的FA分析水平上,可以检测到将SARS相关冠状病毒与冠状病毒科其他成员区分开的谱系特异性适应。然而,这两个分辨率水平都不足以区分人类致病性SARS相关冠状病毒和仅感染动物的病毒。因此,需要在FA变化和核苷酸位置之间找到一个中间分辨率层级。
为了在病毒蛋白背景下增加一个介于FA变化和核苷酸位置之间的分辨率层级,我们追踪了单个表位的系统发生谱。表位是宿主免疫系统识别的短结构基序,塑造病毒蛋白的免疫原性。计算预测工具在SARS-CoV-2刺突蛋白中识别出九个线性表位(Linear Epitopes, LEs)。随后,我们追踪了这些表位在SARS相关冠状病毒多样性中的存在情况。值得注意的是,共享表位的数量随着与SARS-CoV-2系统发育距离的增加而减少,表明存在渐进式分化。一个表位(LE9)似乎是SARS-CoV-2独有的,强烈表明它是在与其最接近的已知亲属RaTG13分化后出现的。
有趣的是,LE9与弗林蛋白酶切割位点重叠——该区域与免疫逃避和增强宿主细胞进入有关,使其成为影响SARS-CoV-2刺突蛋白生化活性变化的强候选者。随后的3D结构和糖基化数据层信息证实LE9是表面暴露的,可用于宿主相互作用。越来越多的证据表明,弗林蛋白酶切割位点的变化确实是SARS-CoV-2成功适应人类的关键。
结论与展望
直系同源关系与生化活性及功能背景的保守性通常被认为紧密相关。对于亲缘关系较近的物种,这种简化观点在许多情况下可能成立。然而,在深远的进化时间尺度上,这种假设变得越来越不可靠。区分保留祖先活性和功能背景的直系同源物与已发生分化的直系同源物变得至关重要。
我们主张将直系同源物之间生化活性和功能背景的等效性视为一个零假设——一个必须主动检验而非假设的假设。挑战这一假设需要多层级的比较分析:从评估功能相互作用伙伴的共存到检测可能影响蛋白质活性的序列或结构的细微变化。将分化活性的比较分析转移到更高分辨率层级伴随着权衡:它大大增加了必须检查的数据点数量,除非基于初步发现缩小更细粒度分析的范围,否则可能迅速变得难以管理。
因此,最佳实践是从高层次概述(如直系同源物的存在-缺失模式)开始,并以迭代方式逐步提高分辨率。随着分辨率的提高,受调查的候选基因数量通常会减少。这种分层方法也支持识别和整理数据,以便对特定候选者进行更详细的研究。
将额外信息层系统整合到比较分析中需要能够捕捉生化活性多样化(而不仅仅是序列或结构分歧)的指标。评估蛋白质特征架构相似性的初始评分方案是朝这个方向迈出的早期步骤。AlphaMissense是一个深度学习工具,可预测氨基酸替换的结构影响,是将结构数据整合到比较分析中的另一个有前景的发展。虽然它为人类基因组中改变活性的错义突变提供了宝贵见解,但它并非为评估直系同源物之间的进化分歧而设计。因此,专门用于推断进化时间尺度上功能分化的框架——尤其是那些包含蛋白质结构数据的框架——仍然缺乏。开发此类方法将有助于在未来对直系同源物的多层级比较分析中常规考虑额外信息层。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号