-
生物通官微
陪你抓住生命科技
跳动的脉搏
解读迄今最清晰的人类基因组多样性快照:到底有哪些改进?
【字体: 大 中 小 】 时间:2023年05月11日 来源:AAAS
编辑推荐:
人类参考基因组一直是一个卓越但有缺陷的工具。新的“泛基因组”旨在纠正其疏忽和遗漏。
20多年来,科学家们一直依赖人类参考基因组——一种共识的基因序列——作为比较其他基因数据的标准。参考基因组在无数的研究中被使用,使得识别与特定疾病有关的基因和追踪人类特征的进化成为可能。但它一直是一个有缺陷的工具。它最大的问题之一是,大约70%的数据来自一个主要是非洲-欧洲背景的人,他的DNA是在人类基因组计划(Human Genome Project)期间测序的,这是第一次试图捕获一个人的全部DNA。因此,它几乎不能告诉我们0.2%到1%的基因序列,而这些基因序列使得这个星球上70亿人彼此不同,在生物医学数据中产生了固有的偏见,人们认为这是影响当今患者健康差异的一些原因。例如,在非欧洲人群中发现的许多遗传变异在参考基因组中根本没有表现出来。
多年来,研究人员一直呼吁建立一种更包容人类多样性的资源,以用于诊断疾病和指导医疗。现在,人类泛基因组参考联盟的科学家们在描述个体间差异的人类DNA部分方面取得了突破性进展。正如他们最近在《自然》杂志上发表的那样,他们已经将来自世界各地的47个人的基因组序列组装成一个所谓的泛基因组,其中每个序列的99%以上都是高精度的。这些序列层层叠加,揭示了近1.2亿个以前未见过的DNA碱基对。
洛克菲勒大学的Erich D. Jarvis是主要研究人员之一,他说,虽然这项工作仍在进行中,但泛基因组是公开的,可以被世界各地的科学家用作新的标准人类基因组参考。“这种复杂的基因组集合比以往任何时候都更准确地代表了人类遗传多样性。”“有了更广泛和更深入的基因数据,以及更高质量的基因组组装,研究人员可以完善他们对基因和疾病特征之间联系的理解,并加速临床研究。”
样本的多样性
2003年完成的人类基因组初稿相对来说不太精确,但随着空白的填补、错误的纠正和测序技术的进步,它变得更加清晰。另一个里程碑是去年,最后8%的基因组——主要是紧密缠绕的DNA,不编码蛋白质和重复的DNA区域——最终被测序。尽管取得了这些进展,参考基因组仍然不完善,特别是在DNA中代表多样性的关键的0.2%到1%。人类泛基因组参考联盟(HPRC)于2019年成立,由政府资助,由美国和欧洲的十多家研究机构合作,旨在解决这一问题。当时,该联盟的领导人之一Jarvis正在通过脊椎动物基因组计划磨练先进的测序和计算方法,该计划旨在对所有70,000种脊椎动物进行测序。他和其他合作实验室决定将这些进展应用于高质量的二倍体基因组组装,以揭示单一脊椎动物的变异:智人。
为了收集多样化的样本,研究人员求助于1000基因组计划,这是一个人类基因组测序的公共数据库,包括2500多个个体,代表26个地理和种族不同的人群。大多数样本来自非洲,那里是地球上人类多样性最大的地方。“在许多其他大型人类基因组多样性项目中,科学家大多选择了欧洲样本,”Jarvis说。“我们做出了有目的的努力,做了相反的事情。我们试图消除过去的偏见。”很有可能在这些人群中找到可以让我们了解常见和罕见疾病的基因变异。
妈妈,爸爸和孩子
但为了扩大基因库,研究人员必须为每个个体创造更清晰、更清晰的序列——脊椎动物基因组计划成员和相关联盟开发的方法被用来解决该领域一个长期存在的技术问题。每个人都从父母那里继承了一个基因组,这就是为什么我们每个染色体都有两个副本,这就是我们所说的二倍体基因组。当一个人的基因组被测序时,分离父母的DNA可能是一个挑战。旧的技术和算法在合并个体的亲代遗传数据时经常出错,从而导致模糊的视图。“父母染色体之间的差异比大多数人意识到的要大,”“母亲可能有20个基因副本,而父亲只有2个。”
由于泛基因组中包含了如此多的基因组,这种阴霾有可能演变成一场混乱的雷雨。因此,HPRC采用了一种由美国国立卫生研究院(National Institutes of Health)的Adam Phillippy和Sergey Koren开发的亲子“一家三口”方法——母亲、父亲和一个基因组都已测序的孩子。利用来自父母的数据,他们能够清理遗传线,并为孩子得出更高质量的序列,然后他们将其用于泛基因组分析。
新变化
研究人员对47个人的分析得出了94个不同的基因组序列,每组染色体两个,加上男性的性Y染色体。然后,他们使用先进的计算技术对94个序列进行对齐和分层。在之前未见过的1.2亿个DNA碱基对中,或者位于与之前参考文献中记录的位置不同的位置,其中约有9000万个来自结构变异,这是当染色体块被重新排列时产生的DNA差异——移动、删除、倒置,或者从复制中获得额外的拷贝。Jarvis指出,这是一个重要的发现,因为近年来的研究已经确定,结构变异在人类健康和特定人群的多样性中发挥着重要作用。“它们可以对性状差异、疾病和基因功能产生巨大影响,”“有了这么多新的发现,将会有很多以前不可能的新发现。”
填充空白
泛基因组组装也填补了由于重复序列或重复基因造成的空白。一个例子是主要的组织相容性复合体(MHC),这是一组基因,编码细胞表面的蛋白质,帮助免疫系统识别抗原,比如来自SARS-CoV-2病毒的抗原。Jarvis说:“它们确实很重要,但使用旧的测序方法研究MHC多样性是不可能的。”“我们看到的多样性比预期的要大得多。这一新信息将帮助我们了解不同人群对特定病原体的免疫反应是如何不同的。”它还可以带来更好的方法来匹配器官移植捐赠者和患者,或者识别有患自身免疫性疾病风险的人。该团队还发现了着丝粒令人惊讶的新特征,着丝粒位于染色体的交叉点,并在细胞复制时进行细胞分裂。着丝粒的突变会导致癌症和其他疾病。
尽管有高度重复的DNA序列,“着丝粒从一种单倍型到另一种单倍型是如此多样化,以至于它们可以解释人与人之间或母亲和父亲单倍型之间超过50%的遗传差异,甚至在一个个体中,”“着丝粒似乎是染色体中进化最快的部分之一。”
建立关系
然而,目前的47人泛基因组只是一个起点。HPRC的最终目标是到2024年中期,从来自不同人群的至少350个个体中产生高质量的、几乎没有错误的基因组,这将是一个里程碑,使捕获赋予重要适应性状的罕见等位基因成为可能。例如,西藏人有与氧气使用和紫外线照射有关的等位基因,使他们能够在高海拔地区生活。
收集这些数据的一个主要挑战将是获得过去曾目睹生物数据被滥用的社区的信任;例如,在目前的研究中,没有来自美洲原住民或土著居民的样本,他们长期以来一直被科学研究忽视或利用。但你不需要追溯到很久以前就能找到不道德使用基因数据的例子:就在几年前,来自多个国家的数千名非洲人的DNA样本在捐赠者不知情、不同意、也没有受益的情况下被商业化了。
这些冒犯行为在许多人中间播下了对科学家的不信任。但是,如果不把这些群体包括在内,其中一些群体在基因上可能仍然不为人所知,从而导致数据中的偏见长期存在,并导致健康结果的持续差异。Jarvis说:“这是一个复杂的情况,需要建立大量的关系。”“现在更敏感了。”即使在今天,许多团体都愿意参与。“来自不同国家的个人、机构和政府机构都在说,‘我们想参与其中。我们希望我们的人口得到代表,’”“我们已经取得了进展。”