综述:长读长测序在解析遗传病病因中的解码复杂性作用

【字体: 时间:2025年09月21日 来源:Mutation Research - Reviews in Mutation Research 6.4

编辑推荐:

  本综述系统探讨了长读长测序(LRS)技术如何突破二代测序(NGS)的读长限制,精准解析基因组复杂区域(如GC富集区、串联重复序列和同源片段),显著提升遗传病(如杜氏肌营养不良症、脊髓性肌萎缩症和神经元核内包涵体病等)的诊断率。文章详述了LRS在检测结构变异(SV)、短串联重复(STR)和甲基化等方面的独特优势,为发现新疾病机制和未来遗传病研究提供了重要技术支撑。

  

解码复杂性:长读长测序在解析遗传病病因中的角色

近年来,高通量测序技术已广泛应用于临床实践,作为孟德尔疾病的辅助检测方法。然而,由于读长限制和对复杂基因组区域覆盖度不足,许多遗传病的病因仍不明确。长读长测序(Long-read sequencing, LRS)技术克服了二代测序(Next-generation sequencing, NGS)的局限性,成为研究复杂遗传病病因的有效工具。

引言

人类基因组包含22对常染色体和一对性染色体(XX或XY),约由31.6亿个DNA碱基对(bp)组成,涵盖约20,000–30,000个基因。基因仅占基因组序列的一小部分,大部分是非编码序列区域,这些区域通常由重复序列组成,被称为“基因组暗物质区”。遗传病由人类遗传物质变异引起,致病遗传变异包括单核苷酸变异(SNV)、拷贝数变异(CNV)、结构变异(SV)以及整个染色体或基因组拷贝数的改变。

NGS是一种大规模平行测序技术,可同时测序数百万个DNA片段,但短读长需通过生物信息学方法比对以重建完整基因组。在复杂结构区域(如GC富集区、串联重复区、同源片段或其他基因组暗物质区),短读长难以准确拼接,导致突变检测效率不佳。研究表明,NGS全基因组测序(WGS)三例的诊断率约为42%,总体诊断率约40%,表明NGS在单基因疾病中的检测率有限。

第三代LRS技术克服了NGS的局限性,使读长能够跨越复杂基因组结构,获得更全面和精确的基因组组装。这一技术飞跃促进了对更广泛遗传变异的检测。除了识别SNV和SV(重复、缺失、插入、倒位和易位超过50 bp),LRS还能进行单倍型分型、区分同源基因并检测甲基化。LRS主要包括PacBio的SMRT测序和ONT的纳米孔测序。

神经系统疾病

神经系统疾病的遗传因素复杂多样,不同疾病可能涉及多个基因的不同变异类型,包括单基因突变、复杂结构变异、串联重复区域的异常扩增以及同源基因重组引起的基因融合。LRS凭借其长读长优势,能够跨越复杂区域,帮助临床医生准确捕捉复杂变异的真实特征。

杜氏肌营养不良症

杜氏肌营养不良症(Duchenne muscular dystrophy, DMD)是一种X连锁遗传性神经肌肉疾病,由抗肌萎缩蛋白(dystrophin, DMD)基因突变引起。DMD基因跨度约2.4兆碱基(Mb),是人类基因组中最大的基因之一,共有79个外显子和3685个氨基酸。DMD基因突变类型包括缺失(60–70%)、重复(5–15%)、SNV/插入缺失(indel)(20%)以及结构变异(倒位易位),NGS检测不准确。LRS能够检测DMD基因常见缺失变异的断点,揭示缺失机制的多样性,并识别复杂结构变异如LINE-1反转录转座子介导的倒位/缺失插入重排。

脊髓性肌萎缩症

脊髓性肌萎缩症(Spinal muscular atrophy, SMA)是一种遗传性神经肌肉疾病,由存活运动神经元基因1(surviving motor neuron gene 1, SMN1)纯合突变引起。存活运动神经元基因2(SMN2)与SMN1高度同源(>99.9%),是SMA的表型修饰基因。SMN1和SMN2基因富含Alu序列,促进非等位基因同源重组,导致基因组不稳定。LRS结合长距离PCR扩增,能够区分SMN1和SMN2基因,成功预测SMA沉默(2+0)携带者,并揭示SMN1基因的结构变异。

神经元核内包涵体病和特发性震颤

神经元核内包涵体病(Neuronal intranuclear inclusion disease, NIID)是一种常染色体显性、进行性神经退行性疾病,特征为神经元和体细胞中存在嗜酸性透明核内包涵体。LRS在NIID患者中检测到NOTCH2NLC基因5′区域GGC重复扩增,而NGS未能发现可能致病变异。类似地,在特发性震颤(Essential tremor, ET)患者中,LRS发现NOTCH2NLC基因5′区域异常GGC重复(60–170),与疾病共分离。

C9orf72基因相关疾病

C9orf72基因的GGGGCC(G4C2)重复导致约5–7%的肌萎缩侧索硬化症(Amyotrophic lateral sclerosis, ALS)和额颞叶痴呆(Frontotemporal dementia, FTD)病例。LRS通过AmplideX PCR或CRISPR/Cas9结合LRS检测C9orf72基因重复,提供重复长度和序列内容的基本信息,揭示等位基因多态性与临床表型的相关性。

眼咽远端肌病

眼咽远端肌病(Oculopharyngodistal myopathy, OPDM)是一种神经肌肉疾病,特征为进行性眼、面、咽和远端肢体肌肉无力。LRS发现LRP12、GIPC1、NOTCH2NLC和RILPL1等基因与特定OPDM类型相关,并识别LOC642361/NUTM2B-AS1基因中CGG重复异常扩增。

强直性肌营养不良

强直性肌营养不良1型(Myotonic dystrophy type 1, DM1)是一种多系统疾病,由DMPK基因3′非翻译区(UTR)的不稳定CTG重复扩增引起。LRS能够高效检测高CTG重复和多个及单个重复中断序列,评估体细胞嵌合程度,并检测DMPK基因重复周围的甲基化水平。

晚发性脊髓小脑共济失调27B

晚发性脊髓小脑共济失调27B(Late-onset spinocerebellar ataxia 27B, LOCA或SCA27B)是一种神经退行性疾病,特征为成年期步态和附加性共济失调。LRS发现FGF14基因杂合GAA三核苷酸重复扩增,部分患者携带双等位基因重复扩增。

癫痫

癫痫是一种慢性疾病,特征为脑神经元突然异常放电导致短暂性脑功能障碍。LRS在癫痫检测中发挥重要作用,例如在特殊元素区域检测CLN6基因纯合缺失,确定新生变异起源,检测SAMD12基因内含子重复扩增,以及识别相互易位。

帕金森病

帕金森病(Parkinson’s disease, PD)是一种快速进展的神经退行性疾病,特征为黑质多巴胺能神经元变性和路易体存在。LRS在PD患者中发现TAF1基因SVA倒位和嵌合 divergent 重复中断,区分GBA1真假基因,并检测NOTCH2NLC基因GGC重复扩增。

地中海贫血

地中海贫血是一种单基因遗传病,流行于热带和亚热带地区。基于遗传变异的分子和生物学特征,地中海贫血分为α-地中海贫血、β-地中海贫血和δ-地中海贫血。LRS在检测罕见α-珠蛋白基因变异方面具有巨大优势,能够揭示缺失、微基因转换和三重复等复杂突变。

先天性肾上腺增生

先天性肾上腺增生(Congenital adrenal hyperplasia, CAH)是一种常见遗传病,由糖皮质激素合成关键酶先天性缺陷引起。90–95%的CAH病例由CYP21A2基因突变导致21-羟化酶缺乏(21-OHD)引起。LRS能够提供准确、全面和直观的遗传诊断结果,检测CYP21A2基因的缺失、重复和微转换,并确定顺式或反式位置。

遗传性肾病

在多囊肾病(Polycystic kidney disease, PKD)中,LRS能够解决PKD1基因的复杂性并区分同源区域和假基因。在Meckel–Gruber综合征中,LRS识别TMEM231基因的同源假基因外显子4和真基因外显子4拷贝数。在ADTKD中,LRS检测MUC1基因VNTR区域7个胞嘧啶重复,并在Gitelman综合征患者中发现深内含子变异。

眼病

在伴有听力损失的锥杆营养不良(Cone-rod dystrophy with hearing loss, CRDHL)中,LRS确认CEP78基因复杂结构变异。在综合征性退化性无眼症患者中,LRS检测13q染色体重复-三重复/倒位-重复复杂重排。在先天性无虹膜症患者中,LRS发现PAX6基因内源倒位和易位。在视网膜色素变性(Retinitis pigmentosa, RP)患者中,LRS揭示EYS基因大外显子重叠缺失。在视网膜母细胞瘤(Retinoblastoma, RB)患者中,LRS验证RB1基因外显子23缺失和插入。

结论与未来展望

测序技术揭示了人类基因组的复杂性,第三代LRS技术显著提高了基因组序列的清晰度。LRS在端粒到端粒(T2T)人类基因组组装中发挥关键作用,解决了GRCh38/hg38基因组中的许多缺口,为进一步探索各种临床遗传病奠定基础。

当前临床检测基因组变异的常用技术包括Sanger测序(用于SNV/indel或某些缺失)、毛细管电泳(CE,用于检测短串联重复STR变异)、定量聚合酶链反应(qPCR,用于验证外显子缺失重复和大片段缺失重复)和MLPA(用于验证大片段缺失重复和检测甲基化相关疾病)。结构变异检测方法包括荧光原位杂交(FISH)、核型分析和染色体微阵列分析(CMA)。NGS可检测各种变异,但由于短读长限制,对复杂结构变异的有效性有限。

作为一种新型基因突变检测技术,LRS使研究人员能够有效检测几乎所有类型的突变,包括SNV/indel和SV。这一能力提高了我们对疾病发病机制和突变检测率的理解,也提高了疾病诊断效率。回顾性分析中,LRS将孟德尔遗传病患者的诊断率提高了5.58–100%。在某些特殊病例或特定类型疾病中,队列诊断率几乎达到100%,实现了对变异的准确和完整评估。这一改进归因于LRS在遗传病中的应用相对有限,主要集中于科学研究,重点是验证复杂SV或识别传统方法无法检测的遗传原因。诊断率的更实质性提高需要更大队列研究的支持。

通过总结LRS检测的变异类型,发现SV的检测率最高(79.71%),其中STR和缺失占SV的比例最高。目前,已知超过70个基因与STR重复异常相关,其中许多基因具有高数量的致病重复。传统方法无法准确检测重复次数,因此许多疾病无法正确诊断。LRS技术的出现关键提供了序列信息,帮助确定重复次数,表明其在STR相关疾病中的重要应用价值。除了检测常见SV,LRS还能识别复杂重排或特殊序列元素(如Alu)。此外,LRS在检测甲基化、嵌合、单倍型分型和区分同源基因方面具有独特优势。

作为一种新兴技术,LRS与NGS相比能够检测更广泛的变异,但成本更高。目前,许多研究采用NGS和LRS相结合的方法,其中NGS用于初步筛查,LRS随后用于目标基因的全长测序,兼顾成本、准确性和效率。随着技术的进步和成本的降低,使用LRS进行全基因组测序预计将在临床中更普及,能够识别更多遗传病原因。

总之,第三代测序技术的研究和应用尚未完全成熟,但该领域的进展引发了各种相关领域的激烈讨论。LRS技术有望在推进医学研究中发挥更重要作用,为深入探索遗传病提供潜力。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号