-
生物通官微
陪你抓住生命科技
跳动的脉搏
PacBio SMRT长读长测序技术结合特殊人类参考基因组完善亚洲精准医学研究
【字体: 大 中 小 】 时间:2017年02月23日 来源:
编辑推荐:
今天我们就来总结一下这一年来,PacBio长读长测序技术在人类基因组,特别是针对时下*热门的精准医学所取得的重要成果。了解一下SMRT长读长技术在疾病相关研究方面解决了哪些NGS所面临的棘手问题。
前言:在刚刚过去的一年里,PacBio SMRT测序技术在人类基因组研究方面取得了非常不错的成绩,中、日、韩三地的科学家们纷纷利用PacBio长读长测序技术打造了属于亚洲人,特别是针对本国的人种特异性参考基因组序列。针对时下大家都非常关注的精准医学,这些特异的参考基因组都有着非常重要的作用。
今天我们就来总结一下这一年来,PacBio长读长测序技术在人类基因组,特别是针对时下*热门的精准医学所取得的重要成果。了解一下SMRT长读长技术在疾病相关研究方面解决了哪些NGS所面临的棘手问题。
大家非常熟悉的人类基因组序列GRCh38,来自于超过50种人种的个体,因此可以说是具有混合的背景。这一基因组为基因的统一注释,序列mapping和基因变异的读取提供了一个国际化的坐标系。尽管GRCh38这样经典的基因组序列在人类基因组学、医学研究上具有非常重要的意义,然而这样的基因组数据并不能充分的反映亚洲人特异的基因组序列。因此针对亚洲人的精准医学研究的中,特异的单体型多样性同样也不能得到很好的解析。
如今下一代测序技术(NGS)在人类遗传多样性研究方面有着广泛的应用,也促进了如今基因组学突飞猛进的发展。但短读长的NGS技术却阻碍了临床上许多重要疾病相关基因的准确分型。这一方面是由于NGS读长短限制导致,NGS能够发现的基因变异的大小非常有限。既不能发现诸如结构变异的基因变异类型,也难以发现新的等位基因。另一方面,现有的由NGS技术获得的所谓参考基因组,并不能完整的呈现等位基因。具有偏差的测序结果不能匹配种族真实的参考基因组序列,往往会导致一些与医学相关基因的不正确定位,又或是基因的错误分型。
为了提高人类遗传学研究的准确性,在过去的一年中,中国、韩国、日本基因组学研究团队相继运用PacBio SMRT测序技术打造了高质量的,具有种族特异性的参考基因组。这样的基因组信息能够更好的代表区域人群中常见的单体型情况。这些新的基因组组装结果使得发现新的等位基因、找到常见或罕见基因变异,包括从单碱基多态性,到大片段的结构变异成为可能。并且能够对人群中单倍型等位基因进行解析和基因分型。这些亚洲人种族特异性的基因组序列,同时也证明了PacBio SMRT测序技术在人类基因组研究以及精准医学研究中的重要价值。
种族特异性亚洲人参考基因组
韩国
来自韩国首尔国立大学,千年基因的科学家团队进行了韩国人个体的基因组AK1的测序组装,该成果发表在去年10月Nature杂志上。这一项目主要采用SMRT测序技术,充分的进行了染色体定相分析,并细致分析了与临床相关的重要基因区域的结构变异。(点击回顾“长读长测序技术打造完美Korean基因组”)
标准的短读长测序技术并不能得到如此高的数据质量。研究人员表示,“短读长组装得到的所谓参考基因组,并不能用于研究大片段的结构变异以及二倍体结构定相(phasing),而这些都与精准医学有着非常重要的关系。相反,单分子实时测序(SMRT)技术平台的长读长测序,则能够有效的解决序列中多次重复的结构变异问题。”
通过比较AK1组装结果和GRCh37国际参考基因组,发现的韩国人基因组中结构变异(SV)数量
基于长读长测序技术,基因组数据的连续性得到了极大的提升。使得单倍型的深入研究成为可能。该研究团队的科学家们还把目光集中在了单倍体上,对HLA和CYP2D6基因进行细节上的分析。从中发现了CYP2D6基因中的一个等位特异性重复与临床密切相关。针对这一研究成果,科学家们表示“这一结果说明,基于de novo组装的定相分析,在解析难以解读的高度可变区方面具有很大的优势,并且这一方法可以进一步用于药物基因组学。”
CYP2D6和CYP2D7等位基因在AK1韩国人参考基因组中的单倍体定相
来自美国纽约西奈山医学院的研究团队 也得到了CYP2D6基因比较相似的成果。他们的研究以长PCR技术富集目标序列,结合PacBio长读长技术,为大量人群的研究中,高度可变区域的分型提供了一个更为经济的方法。此项研究结果发表在Human Mutation杂志上。
中国
来自中国暨南大学、美国南加州大学等机构的研究团队们,采用PacBio SMRT测序技术,对中国人HX1进行了de novo基因组组装及转录组学研究,研究成果发表在了2016年的Nature Communications上。在这一研究的de novo组装中,发现了与中国人特有的12.8Mb新的参考基因序列,在此之前从未报道过。这更进一步证明了特异性人种参考基因组的价值。(点击回顾“ 我国科学家利用PacBio长读长测序技术完成首个中国人全基因组de novo测序”)
对HX1的研究中发现,有一半的结构变异为短串联重复结构,或者是移动元件。短重复结构变异包括简单序列重复(Simple Sequence Repeats,SSR),以及短串联重复(Short Tandem Repeats,STR)。这些短重复结构变异都可能与一些临床疾病相关,包括一些研究得比较透彻的重复序列增加性疾病,例如脆性X染色体综合征,亨廷顿病,共济失调和渐冻症(ALS)等。但由于NGS读长太短,不足以覆盖重复序列异常增加的致病序列区域,以及其他的结构变异;再加上NGS还有极强的GC偏好性,在GC异常区域容易形成不可逾越的gap。如果仅仅用NGS方法来进行我们现在提出的精准医学研究,在结构变异研究的方面将会受到极大的限制。*终Miss掉许多有用的序列信息。
日本
在日本,东北大学设立的东北医疗大学组织(Toumoku Medical Megabank Organization,ToMMo),运用PacBio SMRT测序技术,完成了针对日本人的参考基因组(JRGv1)。测序结果在2016年4月已经发布。科学家们将使用这些序列信息,建立日本人群中结构变异的分类目录,以支持今后的基因组项目,并且促进本国基因组科学的研究发展。科学家们通过采用PacBio长读长测序的优势来解析结构变异。通过与GRCh38比较,鉴定到了大约3500个新的插入序列,大小约为2.5Mb。
国际参考基因组GRCh38与日本人参考基因组JRGv1的比较
新的参考基因组将有力的促进精准医学的发展。依赖短读长技术的GRCh38基因组,虽可以用于一些常见的单碱基的变异检测,但无法准确的的进行结构变异分析。而通过与新的日本人特异的参考基因组JRGv1进行比对,则能够更容易的进行结构变异的基因分型。
低覆盖度的长读长全基因组测序
目前,还有一些研究人员通过SMRT测序技术,对人类个体进行了低覆盖度(通常为10倍)的全基因组测序。这一方法不必得到参考基因组水平的de novo基因组组装数据,但揭示了个体基因组中大部分结构变异,完成了等位基因特异性单倍体的定相。
例如我们*近关注过的一篇报道,就是用这一方法,对个体进行低覆盖度的全基因组测序,以检测未诊断的罕见疾病。(点击回顾“PacBio临床应用捷报-首次确认Carney综合征大片段缺失突变”)
这名患者个体为Carney综合征的疑似病例。但运用短读长的NGS测序技术,进行了平均36X深度的测序,并没有检测出任何可以解释患者临床表征的遗传变异。但运用低覆盖度的长读长全基因组测序,以平均8.6X的测序深度,检测到了一个新的病原性的杂合缺失,这一缺失存在于在PRKAR1A基因的第一个编码外显子中,长度大约为2kb。而这一结构变异也通过Sanger测序法进行了验证,并界定为罕见的孟德尔疾病(也称作Carney综合征)的病因。
运用低覆盖度长读长全基因组测序,发现病原性结构变异——Carney综合征研究
总结
通过进一步提高单体型的解析程度,以及发现新的结构变异,PacBio长读长测序技术在针对亚洲人群体中,发现新的,特别是与医学有着密切相关的等位基因上有着非常重要的作用。而结构变异的检测在此之前,往往由于NGS技术读长及测序偏好性的限制,并没有得到足够的重视。但随着PacBio技术的发展,我们对结构变异和等位基因多样性的研究也在逐步的加深。无论是种族特异性人类参考基因组的打造,还是疾病相关基因的研究,都将离不开结构变异的发现和检测。
而新兴的SMRT应用,比如靶向捕获、低覆盖度的全基因组测序检测结构变异,不仅降低了研究的成本,还可以增加可处理的样本大小。这一数据将帮助进一步解析临床上重要的,种族特异性的等位基因,以及并不常见的结构变异,从而加速精准医学在亚洲人群中的应用发展。相信随着长读长测序技术的不断进步,精确医学研究将获得越来越多重大的发现。
基因有限公司作为Pacific Biosciences公司中国区独家代理商,自2011年以来将PacBio第三代单分子实时测序技术引入国内,一直为国内用户提供专业的三代测序系统的安装培训,技术支持,应用培训与售后维护工作,赢得客户的一致好评与信任。基因有限公司将一如既往的支持越来越多的PacBio用户。
参考文献
1. Graves-Lindsay T, et al. “Reference Genomes Improvement”Project. The Elizabeth H. and James S. McDonnell III Genome Institute at Washington University,2016. Web. 31 Jan. 2017.
2. Seo JS, et al. (2016) De novoassembly and phasing of a Korean human genome. Nature. 538(7624), 243-247.
3. Qiao W, et al. (2016) Long-read Single-Molecule Real-Time (SMRT) full gene sequencing of cytochrome P450-2D6 (CYP2D6). Human Mutation. 37(3), 315-323.
4. Shi L, et al. (2016) Long-read sequencing and de novoassembly of a Chinese genome. Nature Communications. 7, 12065.
5. Tohoku Medical Megabank Project. “Japanese Reference Genome: JRGv1.”Tohoku University and Iwate Medical University, 25 Apr. 2016. Web. 31 Jan. 2017.
6. Wenger A, et al.“Identifying Structural Variants in NA12878 from Low-Fold Coverage Sequencing on the PacBio Sequel System.”Web blog post. PacBio Blog. PacBio, 19 Oct. 2016.
7. Merker J, et al. (2016) Long-read whole genome sequencing identifies causal structural variation in a Mendelian disease. bioRxiv. doi:10.1101/090985.