融合泛基因组、GWAS与可解释机器学习挖掘谷子性状相关结构变异的新策略

《Plant Communications》:Integrating Pan-genome, GWAS, and Interpretable Machine Learning to Prioritize Trait-Associated Structural Variations in Setaria italica

【字体: 时间:2025年11月30日 来源:Plant Communications 11.6

编辑推荐:

  为解决作物性状遗传解析中结构变异(SV)检测成本高、关联定位分辨率有限的问题,研究人员通过构建八份谷子参考级泛基因组,结合全基因组关联分析(GWAS)与可解释机器学习模型,精准定位了调控叶色性状的关键结构变异(如Copia插入元件),为作物功能基因挖掘提供了低成本、高效率的新范式。

  
谷子(Setaria italica)作为古老的禾本科作物,因其抗旱性强、营养丰富,在干旱半干旱地区粮食安全中具有重要战略地位。随着基因组学技术的发展,研究者发现结构变异(Structural Variations, SVs)尤其是存在/缺失变异(Presence-Absence Variations, PAVs)在作物驯化和性状改良中发挥关键作用。然而,传统泛基因组分析因测序成本高昂难以大规模开展,而全基因组关联分析(Genome-Wide Association Study, GWAS)虽能高效定位性状关联区域,却难以区分连锁不平衡下的因果变异,且常遗漏PAVs等大效应变异。如何低成本、精准地挖掘性状相关PAVs已成为作物遗传育种领域的核心挑战。
为解决上述问题,中国农业大学联合张家口市农业科学院等团队在《Plant Communications》发表研究,通过整合泛基因组、GWAS与可解释机器学习,建立了一套高效挖掘谷子性状相关结构变异的创新框架。研究人员首先对八份代表性谷子育种材料(包括抗旱地方品种和高产栽培种)进行PacBio HiFi测序和de novo组装,构建了高质量的图泛基因组(Graph-based Pan-genome),系统鉴定了PAVs在内的多类型SVs。进一步利用定制96K SNP芯片对344份谷子资源进行基因分型,结合表型数据开展GWAS,发现叶鞘、叶枕和叶色性状均显著关联到染色体7上26.84–26.94 Mb的区间。
为精准定位因果变异,研究团队开发了可解释机器学习流程:从关联区间筛选75个大效应变异(包括41个错义SNP、6个移码InDel和28个PAVs),利用LightGBM等模型预测性状,并通过Shapley值量化各变异对表型的贡献度。结果显示,PAVs和移码InDel的贡献显著高于SNPs,其中位于PPLS1(bHLH转录因子)下游约20 kb处的5002 bp Copia插入(Chr7_26868773)被确定为叶鞘和叶枕颜色由紫转绿的关键变异。该插入在绿色材料中固定存在,而在紫色材料中缺失,且绿色群体核苷酸多样性(π)显著降低,暗示其在驯化中受到选择。
本研究的关键技术方法包括:(1)基于PacBio HiFi和Hi-C的八份谷子de novo基因组组装与质量评估;(2)图泛基因组构建与PAVs检测;(3)基于芯片基因型的GWAS群体基因型填充(Imputation);(4)可解释机器学习模型(LightGBM)训练与Shapley值分析;(5)转座子注释与核苷酸多样性分析。

研究结果

1. 八份谷子基因组的de novo组装与注释
通过PacBio CCS和Hi-C技术,获得了 scaffold N50 平均43.7 Mb的高质量基因组,BUSCO完整性达98.5%。基因注释显示八份基因组编码基因数量稳定(34,222–34,841个),重复序列占比46.6%–49.2%,其中LTR反转座子(Gypsy和Copia)为主要成分。
2. 谷子图泛基因组构建与基因分类
以DXH01(豫谷18)为参考构建的泛基因组大小为565.6 Mb,包含37,862个基因。基因家族聚类将35,240个基因簇分为核心(21,645簇)、软核心(1,332簇)、非必需(6,904簇)和私有(5,359簇)四类,私有基因数量在材料间差异显著(DXH01最多,DXH02最少)。
3. 系统进化与基因家族动态
系统发育分析表明谷子与玉米分化时间约27.35百万年前。基因家族扩张/收缩分析发现,谷子中收缩基因家族多于扩张,而水稻和玉米则相反。正选择基因(PSGs)鉴定出22个基因,其中7个为转录因子,可能与环境适应相关。
4. 结构变异(SVs)的特征与分布
共鉴定6,585–11,130个SVs,其中PAVs占比96.4%。SV长度介于51 bp–30.9 kb,均匀分布于基因间区和基因侧翼区域。46%–48%的SVs与转座子(TEs)重叠,LTR/Gypsy和LTR/Copia为最活跃的TE类型。
5. GWAS定位叶色性状关联区间
基因型填充将变异位点从96K扩展至150万,GWAS显著信号均指向染色体7上100 kb区间(26.84–26.94 Mb)。单倍型聚类将344份材料分为三类,表型分布与单倍型高度一致。
6. 机器学习优先排序关键变异
LightGBM模型对叶鞘和叶枕颜色预测AUC值最高达0.95和0.90。Shapley值分析表明PAVs(Chr7_26868773和Chr7_26865118)和InDel(Chr7_26863422)为最重要变异,其中Copia插入位于PPLS1下游,可能与调控该基因表达相关。
7. Copia插入的功能验证与进化分析
比较基因组显示绿色材料中PPLS1下游存在Copia插入,而紫色材料和野生祖先(S. viridis)中缺失。绿色群体核苷酸多样性降低,表明该区域受选择。DXH02(浅紫色)在该区间为杂合状态,进一步支持Copia插入的表型效应。

结论与讨论

本研究通过“泛基因组-GWAS-机器学习”三级联用策略,突破了传统方法在检测PAVs和解析因果变异中的瓶颈。首次发现PPLS1下游的Copia插入通过潜在顺式调控作用抑制紫色色素积累,揭示了转座子介导的性状分化新机制。方法学上,仅用八份参考基因组即捕获75%的关键PAVs,结合基因型填充将测序成本降低约40倍,为资源有限作物的功能基因组研究提供了可推广的解决方案。未来通过染色质构象捕获(Hi-C)和表观组学分析,有望进一步揭示Copia插入的调控机制。该框架不仅适用于谷子,也为其他作物复杂性状的遗传解析提供了新思路。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号