表观相互作用如何塑造全基因组关联分析中的潜在合成关联:一种仅基于基因型数据的机器学习推断方法

【字体: 时间:2025年10月07日 来源:Genome Biology 9.4

编辑推荐:

  为解决GWAS中单一位点模型难以解析多因果变异复杂遗传架构的问题,研究人员开展了一项关于“潜在合成关联”的研究。他们开发了一种名为GARFIELD的新型机器学习方法,仅利用基因型数据即可推断由多位点相互作用(尤其是表观作用)形成的合成关联。分析显示,GWAS Catalog中3-5%的峰值可能为潜在合成关联,且多由常见变异的表观相互作用(“AND”逻辑)而非多个罕见变异的独立效应驱动。这项研究强调了对多基因座模型的需求,并对精细定位和表型预测等后续分析具有重要指导意义。

  
在探索复杂性状遗传基础的征程中,全基因组关联分析(Genome-Wide Association Study, GWAS)已成为一项强大的工具。然而,标准的GWAS分析通常采用单一位点模型,其隐含的假设是:其他因果变异的存在不会影响单个变异的边际效应。这种方法虽然能有效识别出具有较大效应的常见变异,但在面对涉及多个因果变异的复杂情况时,其效力会大打折扣,甚至可能产生偏差。其中一个备受关注的问题便是“合成关联”(synthetic associations)——即非因果变异因与多个未被检测到的因果变异存在 tagging 关系而显示出显著性的现象,而这些因果变异未必与它自身存在强连锁不平衡(Linkage Disequilibrium, LD)。尽管十多年前就存在关于合成关联(尤其关注罕见变异)相关性的争论,但在当今规模更大的GWAS中,其普遍性如何仍属未知。
为了解决这一问题,并深入探索已发表的人类GWAS数据中合成关联的证据,一项发表在《Genome Biology》上的研究应运而生。研究人员开发并应用了一种新颖的、可解释的机器学习方法——GARFIELD(Genetic Association by Random Forest and InterpretivE Logic Decisions)。该方法仅利用基因型数据,旨在推断人类GWAS中存在的潜在合成关联。
GARFIELD方法巧妙地结合了随机森林(Random Forest)和逻辑门(Logic Gates)的优势。随机森林擅长捕捉复杂的交互作用,但可解释性较差;而逻辑门能清晰展现变量间关系,但对高维数据处理效率较低。GARFIELD首先利用随机森林进行变量初选,随后通过逻辑门分析来阐明所选变异与它们对结果(此处是峰值SNP的基因型)的联合效应之间的关系。其关键创新在于,它将两种方法预测的结果作为“伪基因型”(pseudo-genotypes),这些伪基因型代表了变异间复杂相互作用的综合效应,可直接用于关联分析。
本研究利用了来自NHGRI-EBI GWAS Catalog的已发表人类GWAS结果,以及来自1000 Genomes Project的高覆盖率全基因组测序 phased 基因型数据。经过严格筛选,最终分析了206,609个独特变异和382,504个基因型-表型关联。为了推断潜在的合成关联,研究团队设计了一种策略:针对每个GWAS峰值,在其侧翼100 kb区域内,寻找那些与峰值SNP个体LD较低(r2 < 0.3),但通过GARFIELD组合后与峰值SNP基因型高度相关(r2 ≥ 0.8)的变异集合。
分析结果表明,在大多数GWAS结果中并未发现合成关联的证据,但仍有3-5%的峰值(因人群而异)符合其设定的标准,远高于随机对照变异匹配后的比例。研究共在至少一个人群中识别出45,082个峰值作为潜在的合成关联。这些发现暗示,合成关联在人类GWAS中虽然并非主流,但确实存在一个不可忽视的比例。
图1展示了识别潜在合成关联的策略及主要结果分布。值得注意的是,被怀疑为合成关联的GWAS峰值,其进化保守性评分显著低于其他峰值,而识别出的、可能驱动这些合成关联的多个变异,则显示出比原始GWAS领头SNP更高的进化保守性,这表明它们总体上具有更高的真实因果可能性。
研究提供了数个令人信服的例子来展示潜在合成关联。其中一个例子涉及吸烟和饮酒行为(图2a-b)。GWAS在这些性状中识别出染色体20上11.88 Mb附近的三个基因间区SNP。分析显示,这些峰值与40 kb外BTBD3基因编码区的一对SNP组合高度相关,而BTBD3是一个影响小鼠神经回路形成和行为的基因,这使得该基因成为更合理的候选基因。
另一个引人注目的例子是APOE基因座与阿尔茨海默病的关联(图2c-d)。一个基因间区SNP (rs1081105) 近期被发现与阿尔茨海默病及超过40个其他代谢性状独立相关(与rs429358的r2 < 0.2),但它与著名的APOE错义突变(rs429358)和一个位于潜在增强子(E1957019)内的新变异(rs72654473)的组合存在近乎完美的相关性。值得注意的是,后一个变异本身与阿尔茨海默病并无关联,这使得它在进一步的标准统计或功能精细定位分析中难以被察觉。
此外,研究还发现,被识别为可能引起合成关联的多个变异,其等位基因频率通常比相应的峰值变异更常见。这表明合成关联可能常常源于相对常见变异之间的表观相互作用(epistatic interactions),即需要多个突变同时存在才能产生表型效应的“AND”逻辑关系,而非先前认为的常见SNP tagging 多个独立的、罕见的因果突变(“OR”逻辑关系)。这颠覆了之前的观念,表明领头SNP标记的是一种更罕见的多突变单倍型,而非罕见的等位基因。
综上所述,这项研究引入了一种新颖的机器学习框架,仅使用基因型数据即可在全人类GWAS Catalog中推断潜在的合成关联。它提供了证据表明,非平凡比例的GWAS峰值可能并非标记单个因果变异,而是多个底层变异联合效应的体现。更重要的是,研究结果挑战了主流观点,即此类关联源于 tagging 多个独立的罕见变异;相反,提出它们通常是由常见变异间的表观相互作用产生的。在这种情况下,领头SNP有效地标记了一种更罕见的、功能独特的、多位点的单倍型,其遗传架构由“AND”而非“OR”逻辑主导。这一认识是关键的前进了一步,对解释GWAS结果(特别是众多可能实际上指向合理候选基因内复杂等位基因相互作用的基因间区信号)具有深远意义。虽然GARFIELD方法提供了一个强大的筛查工具,但这些发现是统计推断,强调了对精细定位和表型预测中采用多位点模型的迫切需求。未来利用个体层面表型数据进行验证对于确认这些表观关系并全面揭示人类性状的复杂遗传结构至关重要。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号