被子植物CLE信号肽基因家族的全景分析揭示旁系同源基因多样化的路径、模式与预测
《Molecular Biology and Evolution》:Pan-angiosperm analysis of the CLE signaling peptide gene family unveils paths, patterns, and predictions of paralog diversification
【字体:
大
中
小
】
时间:2025年11月14日
来源:Molecular Biology and Evolution 5.3
编辑推荐:
本研究针对植物CLV3/EMBRYO-SURROUNDING REGION (CLE) 小信号肽家族在物种间组成差异大、功能预测困难的问题,通过开发扫描管道对2000个基因组进行de novo注释,发现数千个新成员并构建了1.4亿年进化全景。结合图嵌入建模和CRISPR基因组编辑实验,揭示了旁系同源基因冗余性的不对称分化规律,证实了肽段序列和顺式调控元件的协同进化机制,为复杂基因家族的功能解析提供了进化指导框架。
在植物发育生物学领域,CLV3/EMBRYO-SURROUNDING REGION (CLE) 小信号肽基因家族一直扮演着关键角色。这些编码约100个氨基酸前体蛋白的基因,通过蛋白酶解加工形成12个氨基酸的活性肽段(dodecapeptide),与富含亮氨酸重复序列受体样激酶(LRR-RLK)结合后调控干细胞增殖、器官形成等重要生理过程。然而该家族存在显著挑战:成员间序列分化迅速、拷贝数变异大、表达水平低,导致传统注释方法难以全面捕捉其多样性,更阻碍了对其功能冗余和进化规律的系统性解析。
为解决这一难题,由Iacopo Gentile、Miguel Santo Domingo等研究人员组成的团队在《Molecular Biology and Evolution》发表了突破性研究。他们整合计算生物学与实验验证,通过构建覆盖1000种被子植物、2000个基因组的泛基因组图谱,结合人工智能辅助的序列分析手段,首次揭示了CLE家族在1.4亿年进化长河中的动态演变规律。研究最引人入胜的发现在于:通过突变效应建模准确预测了旁系同源基因的功能补偿能力,并通过多物种CRISPR实验验证了编码序列与顺式调控序列的协同退化如何塑造了物种特异性的冗余模式。
关键技术方法包括:基于DIAMOND和MAKER2的基因组扫描注释流程;运用Node2Vec图嵌入算法构建基因关系网络;采用EVmutation和AlphaFold-Multimer进行突变效应预测与蛋白互作模拟;在番茄(Solanum lycopersicum)、林夜茄(S. prinophyllum)和灯笼果(Physalis grisea)等茄科植物中开展CRISPR/Cas9基因编辑和碱基编辑实验;通过三代群体测序策略进行基因型-表型关联分析。
研究人员开发了新型注释流程,通过对2000个基因组的系统扫描,发现了超过6万个CLE基因,其中大量为先前未被注释的新成员。通过蛋白质语言模型ESM2(EVOLUTIONARY SCALE MODELING 2)分析显示,CLE家族相比其他基因家族具有更低的序列保守性和更快的进化速率。特别值得注意的是,该流程在十字花科植物Cardamine hirsuta中成功识别出8个SCOOP家族新成员,证明了该方法对小肽基因家族的普适性。
针对CLE基因序列短、分化快的特性,研究采用Node2Vec图嵌入方法替代传统系统发育分析,构建了能同时保留全局和局部结构关系的基因网络。结果显示,CLV3及其旁系同源基因在嵌入空间中形成紧密簇群,而功能核心dodecapeptide的氨基酸变异主导了聚类模式。对LRR-RLK家族的分析则清晰区分了CLV1、BAM和PXY等已知受体亚类。通过AlphaFold Multimer模拟发现,受体结合域中第152和177位点(分别为天冬酰胺N和丝氨酸S)的氨基酸分化与配体dodecapeptide第1位点的进化变化存在协同适应关系。
以森林夜茄CLV3(SpriCLV3)为案例的研究显示,dodecapeptide不同位点对突变的敏感度存在显著差异。第2和5位点(甘氨酸和丙氨酸)耐受性较高,而第8位点的天冬氨酸(D)到甘氨酸(G)置换预测会产生强烈表型效应。通过Potts模型计算的突变效应与生化特性(Sneath指数)和结合自由能变化高度相关(R2=0.88)。实验验证中,在灯笼果PgCLE9和森林夜茄SpriCLV3b中引入G8S突变均导致严重的花序分生组织增生(fasciation),与预测完全一致。
研究提出了“突变负荷”量化指标,发现近期形成的旁系同源基因相比非旁系同源基因积累了更多有害突变,符合基因复制后选择放松的理论预期。番茄SlCLV3-SlCLE9案例中,虽然dodecapeptide序列高度保守,但启动子区域呈现不对称退化:SlCLE24保留了更完整的保守非编码序列(CNS)并表现出更高表达水平,暗示其在该冗余对中的主导地位。
简单遗传互作解析:SlCLE7-SlCLE24案例
针对番茄中SlCLE7和SlCLE24这一简单旁系同源对的研究发现,尽管dodecapeptide仅存在三个中性突变,但启动子保守性分析显示不对称退化模式。CRISPR双突变体表现出叶柄角度显著减小(60-90° vs 野生型110-130°),这一表型与已知的fas(fasciated)和fab2(branched 2)突变体相似,揭示了该基因对在番茄株型调控中的新功能。
复杂遗传互作解析:R1N8N12和R1D8H12簇
对两个多成员CLE簇(R1N8N12和R1D8H12)采用多重CRISPR编辑策略,结合群体测序基因分型方法,成功解析了高阶冗余关系。R1N8N12突变群体表现出多子叶表型(30-50%个体具三子叶),候选基因SlCLE29、SlCLE31、SlCLE32和SlCLE38在启动子相似性网络中紧密聚集;而R1D8H12突变体则呈现株型紧凑、茎干细弱等营养发育缺陷,相关基因SlCLE11、SlCLE36和SlCLE42同样通过启动子保守性而非肽段序列相似性关联。这一发现揭示了在复杂基因家族中,顺式调控元件的保守性可能比编码序列更能预测功能冗余关系。
本研究通过跨学科方法建立了从进化分析到功能预测的研究范式,不仅阐明了CLE家族的进化规律,更提供了解析复杂基因家族的一般框架。研究表明,深度进化信号能够有效预测近缘物种中的基因功能关系,而启动子序列的保守性在维持高阶冗余中可能发挥比预期更重要的作用。这种将计算预测与实验验证相结合的策略,为作物遗传改良中精准操控基因家族成员提供了新思路,特别是在设计多基因编辑方案时,可优先考虑启动子保守性高的基因组合以提高成功率。该研究标志着植物进化生物学向可预测性、工程化方向迈出了重要一步。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号