高质量小鼠参考基因组揭示鼠类蛋白质编码景观的结构复杂性
《Cell Genomics》:High-quality mouse reference genomes reveal the structural complexity of the murine protein-coding landscape
【字体:
大
中
小
】
时间:2025年12月02日
来源:Cell Genomics 9
编辑推荐:
本刊推荐:为解决单一参考基因组导致的研究偏差问题,Helmy等人利用长读长测序技术完成了17个常用小鼠品系的高质量基因组组装。研究成功解析了MHC、防御素簇等复杂免疫区域,重新定位了数百个非参考基因,并首次在基因组层面系统鉴定了编码区可变数目串联重复序列(VNTR)。这些资源显著提升了RNA-seq分析的准确性,为利用遗传多样性小鼠模型进行生物医学研究提供了关键工具。
小鼠长期以来都是研究人类疾病和健康的首选哺乳动物模型。然而,自2002年以来,小鼠参考基因组一直基于单一近交系C57BL/6J(BL6)。这种依赖性导致实验室研究严重偏向使用BL6品系,据PubMed统计,与BL6相关品系的应用从1980年代的约25%上升到2024年的70%以上。然而,非BL6小鼠品系,如129、DBA/2J、BALB/c等,在胚胎干细胞操作、神经生物学、免疫学及感染抵抗力等方面具有独特优势,其完整的基因组序列将极大促进生物医学研究。尽管已有研究利用短读长测序对多个品系进行了基因组测序和变异鉴定,但这些组装在许多复杂和重复序列丰富的区域仍不完整,限制了我们对小鼠基因组全貌的理解和应用。
为了解决这一问题,由Mohab Helmy、Jin U. Li、Xinyu F. Yan等共同领导,Thomas M. Keane作为通讯作者的研究团队在《Cell Genomics》上发表了最新研究成果。他们利用PacBio连续长读长(CLR)和高保真(HiFi)测序结合Hi-C技术,产生了17个广泛使用的经典实验室小鼠品系和野生来源品系的高质量染色体级别基因组组装。这些基因组的质量与GRCm39参考基因组相当,甚至在某些方面更优。研究人员利用这一资源构建了小鼠泛基因组,深入解析了主要组织相容性复合体(MHC)等关键免疫区域的单倍型复杂性,重新发现了数百个在BL6参考基因组中缺失但已被文献报道的基因(如Defa1, Raet1a, Klra20等),并开发了一种基于人工智能的方法,首次在基因组范围内系统鉴定了蛋白质编码基因中的可变数目串联重复序列(VNTR)。研究还证明,使用品系特异性基因组进行RNA-seq分析能显著提高读段比对率和基因表达定量准确性。这项工作为解决小鼠研究中的品系偏差提供了宝贵的基因组资源,将推动未来在免疫、感官、神经科学等领域的深入研究。
研究团队主要采用了以下几项关键技术:通过PacBio长读长测序和Hi-C技术进行染色体级别的de novo组装;利用minigraph构建包含18个品系(含BL6)的小鼠泛基因组图;结合GRCm39基因投影和品系特异性RNA-seq数据进行基因组注释;开发基于YOLOv10目标检测算法的VNTR识别工具,用于分析编码区串联重复;使用STAR比对和DESeq2分析进行品系特异性与通用参考基因组(GRCm39)的RNA-seq定量比较。研究所用的小鼠样本来源于杰克逊实验室。
研究人员成功获得了17个小鼠品系的染色体级别de novo组装。这些基因组的染色体(1-19号和X染色体)总长度在2.46至2.68 Gbp之间,与GRCm39的2.56 Gbp相近。虽然部分组装的contig N50(0.82-33.9 Mbp)低于GRCm39(57.4 Mbp),但scaffold N50(11-116 Mbp)与GRCm39(100.9 Mbp)相当。组装质量值(QV)在Q40到Q52.18之间(准确度99.99%-99.9993%),碱基错误率估计为每百万碱基0.38至2.45个SNP。BUSCO基因完整性评估显示,所有组装的完整性在99.10%至99.60%之间,与GRCm39的99.60%相当。重复序列含量与GRCm39相比,短散在核元件(SINE)为96.22%-101.33%,长散在核元件(LINE)为89.02%-104.08%,内源性逆转录病毒元件(ERV)为86.96%-103.79%。将各品系的短读长全基因组测序(WGS)数据分别比对到GRCm39、之前的短读长组装和本研究的长读长组装上,发现使用长读长组装能显著改善比对指标,例如,野生来源品系中读段对比对到不同染色体的比例在使用长读长组装时为0.58%-3.00%,而使用GRCm39或短读长组装时分别为1.24%-4.67%和7.93%-9.88%。
利用minigraph构建的包含18个品系的小鼠泛基因组图,以GRCm39为骨架,非参考序列表示为图中的分支。通过分析泛基因组图,研究人员量化了每个品系相对于GRCm39的非参考序列差异。对于经典小鼠品系,每条染色体的非参考序列中位数为30.3 Kbp每Mbp。非参考区域的大小在50 bp(minigraph默认阈值)到207.2 Kbp之间,其大小分布显示在6-7 Kbp处有富集,这反映了全长LINE元件的典型大小。多样性最高的区域(前5%)包含101至3,288个蛋白质编码基因。对这些区域内基因的PANTHER蛋白分类富集分析显示,防御/免疫蛋白类显著富集,凸显了这些位点在生物医学上的重要性。
位于5号染色体上的鸟苷酸结合蛋白(GBP)基因座是泛基因组中多样性最高的区域之一。该基因座编码的GTP酶在免疫应答和宿主防御中起关键作用。不同品系,尤其是野生来源品系,在该位点表现出显著的结构变异(包括倒位、易位和重复),导致基因座大小差异巨大(0.39-0.48 Mbp),并且存在等位基因的组合差异,有些品系缺失BL6中存在的等位基因,而另一些则含有新等位基因。
主要组织相容性复合体(MHC),即小鼠的H2基因座,是基因组中最具多态性的区域之一。本研究成功解析了12个经典实验室小鼠品系中的H2单倍型(a, b, c, d, k, q, g7, z),以及C57BL/6NJ中的H2(b)。与GRCm39相比,H2-Q和H2-T基因座的空缺已被填补。比较不同品系完整的H2基因座揭示了不同水平的多样性:H2-K和经典II类MHC分子的基因顺序和结构高度保守,但其编码序列(CDS)内的高序列多样性和高dN/dS值表明存在正向选择;而对于其他Ia类成员,基因重组显著破坏了共线性,存在/缺失多态性和基因拷贝数变异是主要的多样性来源。研究在q和z单倍型中鉴定出四个新的H2-D同源物(D5-D8)和三个新的H2-Q同源物(Q16-Q18)。系统发育分析显示H2-D、H2-L和H2-Q成员之间没有明确分离,表明该基因座存在复杂的重组历史。对五个野生来源品系的分析则识别出五种不同于任何已知实验室小鼠H2单倍型的新单倍型。
在BL6成为主导研究品系之前,许多基因是从非BL6小鼠中克隆或测序的,因此这些基因往往缺失于BL6参考基因组中。研究人员从MGI数据库筛选出278个在GRCm39中缺失的基因标记,并对其中196个基因的序列进行了分析。这些序列与GRCm39的平均相似度仅为95.49%,但与相应品系基因组组装的相似度达到99.41%。以α-防御素(隐窝素)为例,GRCm39参考基因组缺少Defa1、Defa4和Defa6-16等成员,而这些基因先前已从C3H、129或DBA品系中克隆,并在免疫中起关键作用。本研究在DBA/2J和C3H/HeJ(两者共享相同的α-防御素单倍型)的de novo组装中分析了该基因座。GRCm39在该约800 Kbp的基因座上编码39个Defa成员(含9个假基因)。DBA/2J基因组包含相同数量的Defa编码单元,但只有19个基因与参考基因组有直接直系同源物。研究人员鉴定出13个先前已发表但缺失于GRCm39的基因(如Defa1, Defa4, Defa6, Defa7, Defa14),以及7个已发表的隐窝素相关序列(CRS)肽和几个新基因及假基因。将C3H/HeJ和DBA/2J的WGS短读长数据分别比对到其de novo组装和GRCm39上,发现与GRCm39相比,de novo组装中的SNP和indel减少了99%以上,比对深度的标准差降低了75%。
可变数目串联重复序列(VNTR)是由10-100 bp串联重复单元组成的DNA序列,由于DNA复制过程中的聚合酶滑动而具有可变的拷贝数和高度多态性。研究人员开发了一种基于AI(YOLOv10)的工具,通过分析基因等位序列之间的点阵图来识别de novo组装蛋白质编码基因中的VNTR。在包含262张图像(80%训练,20%验证)的数据集上,该工具的精确率和召回率分别为93.7%和83.3%。应用该工具在428个基因(约占小鼠蛋白质编码基因的3%)中检测到VNTR多态性。富含VNTR的基因家族包括Krab-Zfp成员、角蛋白(Krt)、角蛋白相关蛋白(Krtap, Tspear家族)和粘蛋白(Muc家族)等。许多基因功能与病原体/癌症免疫(如Ubc, Ticam1, Stat2, Sbsn)、皮肤屏障(如Krt, Muc, Flg, Flg2)和精子发育(如Zan, Txndc2)相关。VNTR单元长度从几个bp到近1 Kbp不等,超过一半的VNTR重复单元长度在10-100 bp之间。拷贝数方面,超过一半的VNTR在5-20个拷贝之间,最多可达约680个拷贝(JF1/MsJ品系的Muc17)。大多数VNTR序列(251个重复长度>3 bp的基因)的GC含量显著高于整个开放阅读框(ORF)的平均值。研究发现某些VNTR序列在不同小鼠亚种之间具有相似的重复单元,表明其可能受到长期平衡选择而非随机突变的影响。
基因表达定量是生物医学研究中的基本实验方法。目前,大多数对不同小鼠品系的基因表达研究仍使用BL6参考基因组。研究人员将PWK/PhJ品系多个组织的RNA-seq数据分别比对到GRCm39参考基因组和PWK/PhJ参考基因组。结果显示,与使用GRCm39相比,使用PWK/PhJ参考基因组时,比对到编码序列(CDS)的RNA-seq读段比例在不同组织中提高了2%-10%。进一步比较感染MA15 SARS病毒的肺组织与未感染对照组织的基因表达水平,发现使用不同参考基因组会导致359个基因(占16,222个具有明确1对1旁系同源基因的2.1%)的差异表达状态发生改变(例如,从差异表达变为不差异表达,或相反)。这些差异主要源于三种情况:GRCm39参考基因组中额外的已加工假基因拷贝吸引了原始基因的读段;基因家族成员间的序列相似性以及品系间的SNP差异导致读段在同源基因间错误比对;PWK/PhJ中品系特异性基因家族成员(如Irga家族新基因)在感染期间表达,但其读段在BL6参考基因组中会被误导性地比对到其他同源基因上。
一项近期研究利用52个遗传多样性协作交叉(CC)小鼠品系与结核分枝杆菌(Mtb)转座子突变体库,将细菌遗传学与宿主遗传学和免疫学相关联。研究发现,CC品系对感染的易感性差异巨大,并产生性质不同的免疫状态。研究人员将肺白细胞介素(IL)-17水平和感染后4周细菌负荷的两个数量性状基因座(QTL)定位到15号染色体上的一个位点。对于这两种表型,BLUP分析预测,在该位点遗传CAST/EiJ单倍型与较低的表型值相关。扫描chr15的结构变异发现该区域高度多态。在CC/DO群体的八个创始品系中,鉴定出一个长约0.4 Mbp的非同线性区域,该区域存在一个倒位,仅存在于BL6和129S1/SvlmJ中,而未在其他七个创始品系中发现。利用基于RNA-seq的新基因注释,发现每个非参考创始品系在该非同线性区域内含有6-8个de novo蛋白质编码基因。有证据表明,CAST/EiJ小鼠中该区域的基因通过调节宿主驱动的细胞死亡通路,显著促进了对抗病原体感染的能力。
本研究提供的17个高质量参考基因组集合,显著提升了对小鼠基因组架构,尤其是复杂免疫区域的理解。重新发现的非参考基因为历史研究提供了基因组背景,而VNTR的首次系统鉴定为理解一种重要的基因组变异形式打开了大门。品系特异性基因组和注释极大地改善了基因组分析(如RNA-seq)的准确性。这个小鼠泛基因组资源将有助于克服长期存在的品系选择偏差,促进未来利用遗传多样性小鼠模型进行更全面、更准确的生物医学研究。当然,这些基因组尚未达到端粒到端粒(T2T)的完整度,Y染色体、着丝粒、rDNA等最复杂区域仍有待解析。随着更多小鼠品系被测序至T2T质量,未来的泛基因组迭代将提供更完整的图谱。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号