gnomAD通过局部祖先推断改进等位基因频率:揭示混合人群中的临床相关变异
【字体:
大
中
小
】
时间:2025年10月07日
来源:Nature Communications 15.7
编辑推荐:
本研究针对gnomAD等位基因频率在混合人群中因传统个体水平祖先分组而模糊变异的问题,通过局部祖先推断(LAI)技术对超2700万个变异进行分析,发现超80%变异在祖先特异性频率上存在显著差异,其中81.49%变异的最大频率值(grpmax)因此提升,为临床解读提供更精准依据,尤其有助于将意义未明变异重新分类为良性。
在基因组学研究与临床遗传解读中,准确获取等位基因频率是评估变异致病性的基石。作为全球最广泛使用的等位基因频率数据库,gnomAD虽然提供了跨不同遗传祖先群体的频率数据,但其传统方法存在明显局限:基于个体整体遗传背景的祖先分组将连续遗传背景离散化,尤其对近期混合群体(如混合美国人和非洲/非裔美国人)而言,这种聚合估计会掩盖不同祖先片段间的频率差异,导致临床解读偏差。
为提升分辨率,研究团队对gnomAD v3.1中混合美国人(n=7612)和非洲/非裔美国人(n=20,250)两个群体超过2700万个变异开展局部祖先推断(LAI),生成祖先特异性等位基因频率。通过这一技术,团队成功将变异频率分解至单倍型水平的 continental 祖先背景(LAI-AFR:非洲,LAI-EUR:欧洲,LAI-AMR:美洲原住民),发现高达78.5%和85.1%的变异在祖先特异性频率上存在至少两倍差异。更重要的是,81.49%的变异在纳入LAI数据后,其gnomAD-wide最大频率(grpmax)得到提升,可能直接改变临床分类——例如将一些原本标记为“意义未明”的变异重新归类为“良性”或“可能良性”。
研究发现,混合美国人群体中60%个体为两大陆混合祖先,35%为三大陆混合;非洲/非裔美国人中68%为非洲与欧洲混合。即使PCA空间位置相近的个体,其局部祖先模式也差异显著,凸显了LAI在解析精细遗传结构中的价值。
在功能变异案例中,如与2型糖尿病风险相关的SLC16A11变异(17-7043011-C-T)在混合美国人中频率为24%,而经LAI分解后,其在LAI-AMR片段中频率高达45%,其余祖先片段接近0%。类似地,APOL1基因中与肾脏疾病相关的变异(22-36265860-A-G)在LAI-AFR片段中频率为27%,远高于全局频率1%。这些案例说明,LAI能有效识别出因祖先特异性富集而具有临床意义的变异。
对于罕见变异,LAI同样展现出重要价值。例如导致Steel综合征的COL27A1基因变异(9-114195977-G-C)在LAI-AMR片段中频率近1%,支持了 founder effect 假说。此外,LAI还能优化隐性疾病的遗传患病率估计,提供更准确的携带者频率和人群风险预测。
从等位基因频率分布差异来看,LAI-AMR片段的变异频率方差最高(0.0447),反映其可能受历史上瓶颈效应或 founder effect 影响。而Levene检验表明各祖先片段间的频率方差差异极其显著(p<1×10-16)。
临床相关性分析显示,LAI-informed频率数据显著影响变异分类。具体而言,在gnomAD两个群体中,分别有6.6%和3.0%的变异在LAI分解后频率超过5%——ACMG BA1良性证据阈值。在高置信度ClinVar变异中,这些“升级”变异几乎全部已被归类为良性/可能良性,证实了LAI在辅助良性变异识别中的可靠性。例如,位于CHIT1基因的“意义未明”变异(chr1:203229707, C/T)在LAI-AFR和LAI-AMR片段中频率均超5%,满足BA1标准,提示应重新归类为良性。
研究团队采用的主要技术方法包括:基于Hail Batch开发的LAI分析流程,使用Eagle进行基因型相位推断,RFmixV2进行局部祖先推断,Tractor提取祖先片段并计算等位基因剂量,最后利用定制Python脚本整合Hail库生成祖先特异性频率。参考面板来自1000 Genomes Project和Human Genome Diversity Project的 harmonized 样本,涵盖AFR、EUR和AMR超级群体。分析仅限于双等位基因SNP,且要求最小等位基因频率(MAF)≥0.1%,等位计数(AC)>7。
Release of local ancestry-informed frequencies in gnomAD
本研究发布了针对混合美国人和非洲/非裔美国人群体的LAI-informed频率数据,分别涵盖14,804,206和24,204,574个双等位基因SNP,其中约9.82–11.57%的变异通过质控并获得局部祖先判定。这些数据以VCF格式发布,并整合进gnomAD浏览器供交互查询。
Ancestry composition of gnomAD African/African Americans and Admixed Americans
通过PCA和ADMIXTURE分析,研究揭示了两个群体的遗传异质性与混合模式。混合美国人群体中三大陆混合占35%,而非洲/非裔美国人中以两大陆混合为主(68%)。值得注意的是,即使全局遗传背景相似的个体,其局部祖先组成也存在显著差异。
Functional variant case studies
通过多个功能变异案例(如SLC16A11、APOL1、COL27A1、CFTR),研究展示了LAI在识别祖先特异性富集变异方面的优势,为疾病机制研究和临床解读提供更精细的证据。
Divergence in allele frequencies across ancestry tracts
频率差异分析显示,LAI-AFR与LAI-EUR在非洲/非裔美国人中的等位基因频率相关性为0.83,而混合美国人中各祖先片段间的相关性在0.73–0.84之间。大部分变异在祖先特异性频率上表现出显著富集或缺失模式。
临床相关性分析表明,LAI-informed频率数据显著提升了grpmax值,影响了近88%的ClinVar良性/可能良性变异分类。尤其在高置信度ClinVar变异中,超过10%(混合美国人)和6.3%(非洲/非裔美国人)的变异在LAI分解后频率超过5%阈值,为良性分类提供强有力证据。
研究结论强调,遗传祖先本质连续而非离散,LAI通过近似离散源群体模型,为近期混合群体提供更精细的频率解析。该版本系统性地将局部祖先信息整合入gnomAD,显著提升了对混合群体中祖先特异性变异的解析能力,支持更准确的临床解读与研究应用。所有数据与代码均已公开,支持科学社区对多样化基因组背景的变异解读。
讨论部分指出,等位基因频率的祖先间差异源于人口历史、遗传漂变和自然选择等多重因素。未来工作可结合更精细人口模型与功能数据,深入探索群体富集变异的历史。同时,研究也承认当前LAI分辨率仍限于 continental 水平,期待随参考面板扩展实现更细尺度解析。
这一研究通过大规模应用LAI技术,不仅提升了gnomAD数据的解析度与实用性,也为全球基因组学资源在精准医学中的应用树立了新标杆。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号