-
生物通官微
陪你抓住生命科技
跳动的脉搏
对77,539个基因组的遗传关联分析揭示了罕见疾病的病因
【字体: 大 中 小 】 时间:2023年03月17日 来源:nature medicine
一半以上的罕见疾病的遗传病因仍然未知。标准化的基因组测序和大型患者群体的表型为发现未知病因提供了机会,但这取决于高效和强大的分析方法。我们建立了一个紧凑的数据库,即“稀有水库(Rareservoir)”,包含由10万人基因组计划测序的77,539名参与者的罕见变异基因型和表型。然后,我们使用贝叶斯遗传关联方法BeviMed来推断基因与临床医生分配给参与者的269种罕见疾病类别之间的关联。我们确定了241个已知的和19个以前未知的关联。我们通过在其他队列中搜索谱系并使用生物信息学和实验方法验证了与ERG、PMEPA1和GPR156的相关性。我们提供的证据表明:(1)促红细胞转化特异性(ETS)家族转录因子编码基因ERG的功能缺失变异导致原发性淋巴水肿,(2)转化生长因子-β调控因子PMEPA1最后外显子的缺失变异导致Loeys-Dietz综合征,(3)GPR156的功能缺失变异导致隐性先天性听力障碍。Rareservoir提供了一个轻量级、灵活和便携的系统,用于合成研究数万名参与者的罕见疾病队列所需的遗传和表型数据。
总的来说,每20个人中就有1人罹患罕见病1,但在大约1万种编目的罕见病中,只有不到一半的人有解决的遗传病因2。对大量表型多样化的罕见疾病患者进行标准化基因组测序(GS),可以在广泛的病理中发现病因3,4,5,同时提高患者的遗传诊断率。100,000基因组计划(100KGP)是迄今为止对罕见疾病患者进行的最大的GS研究,对34,523名英国国家卫生服务罕见疾病患者和43,016名未受影响的亲属进行了测序。100KGP参与者的相关遗传和表型数据随后通过一个名为英国研究环境基因组学的门户网站提供给研究人员。如此庞大的GS数据集的规模和复杂性以及患者表型编码的层次性6引发了许多生物信息学和统计学挑战。最重要的是,来自数万个人的GS研究的完整基因型数据通常存储在许多tb大小的不可修改的文件中,这导致了高昂的存储和处理成本。最近开发的框架,如Hail7和OpenCGA8,提供了更大的灵活性。然而,它们的设计是为了捕捉整个小等位基因频率(MAF)谱上的变体的基因型,从罕见(MAF < 0.1%)到常见(MAF > 5%)变体。为了容纳大量的基因型,它们依赖于分布式存储系统,需要大量的软件包,阻碍了部署。我们开发了一个数据库模式,“Rareservoir”,用于灵活有效地处理罕见变异基因型和患者表型。我们部署了一个只有5.5 GB大小的100KGP数据的Rareservoir,并应用贝叶斯统计方法BeviMed9来识别编码基因与临床医生分配给患者的269种罕见疾病类别之间的遗传关联。在我们确定的以前未知的关联中,我们在验证性分析和实验工作中跟踪了最可信的子集。