MarpolBase:地钱高质量端粒到端粒基因组数据库的构建与资源整合

《Plant and Cell Physiology》:MarpolBase: Genome database for Marchantia polymorpha featuring high quality reference genome sequences

【字体: 时间:2025年12月02日 来源:Plant and Cell Physiology 4

编辑推荐:

  本研究针对地钱(Marchantia polymorpha)基因组资源存在组装缺口和注释不完善的问题,开发了基于PacBio HiFi长读长测序的ver.7.1参考基因组,构建了集成基因组浏览、基因命名和数据分析功能的MarpolBase平台。该研究实现了近乎完整的端粒到端粒组装,显著提升了性染色体和重复区域的解析精度,为植物进化发育研究提供了高质量数据支持。

  
在植物进化发育生物学研究领域,苔藓植物地钱(Marchantia polymorpha)因其独特的生物学特性日益受到重视。作为维管植物的姐妹群,地钱保留了陆地植物祖先的许多特征,且尚未经历古代全基因组复制事件,遗传冗余度低,便于进行基因功能研究。其生活史中以单倍体配子体为主阶段,更可直接观察基因功能而避免二倍体杂合性的干扰。尽管地钱已成为研究植物进化、发育和基因调控的关键模式生物,但基因组资源的不足限制了其应用潜力。
早期地钱基因组组装存在较多缺口,特别是在重复序列丰富的区域和性染色体区域,这影响了基因组注释的准确性和完整性。随着长读长测序技术的发展,地钱基因组组装质量虽有提升,但仍需进一步完善。同时,缺乏统一的基因组数据库平台也阻碍了数据的有效利用和共享。为了解决这些问题,由日本国立遗传学研究所、京都大学等多国研究机构合作完成了这项研究,成果发表在《Plant and Cell Physiology》期刊。
研究人员采用PacBio HiFi长读长测序技术对地钱雄性Tak-1和雌性Tak-2品系进行基因组测序,使用Hifiasm进行基因组组装,并通过NextPolish2进行抛光提升序列准确性。基因注释通过Liftoff工具从旧版本迁移,结合Iso-Seq全长转录本映射和GINGER从头预测进行补充完善。基因组特征预测包括着丝粒、端粒和rDNA区域的分析,使用BUSCO和Merqury等工具评估组装质量。数据库构建采用Python/Flask框架,集成WebApollo基因组浏览器和SequenceServer BLAST服务器。
基因组测序与组装
研究团队对地钱雄性Tak-1和雌性Tak-2品系进行PacBio HiFi全基因组测序,分别获得38.5 Gb和37.2 Gb数据,平均读长为14 kb。过滤掉细胞器基因组来源的读数后,有效覆盖率约为106-108倍。使用Hifiasm v0.19.5进行组装后,通过序列比对将重叠群分配到染色体,最终获得9条染色体水平的假分子,分别命名为MpTak1_v7.1和MpTak2_v7.1。
最终组装大小约为240 Mb,比估计的基因组大小大约10%。BUSCO分析显示完整性高达99.6%,k-mer完整性和QV值显著提升,表明基因间区域的组装准确性提高。Hi-C接触图证实了染色体结构的一致性,表明ver.6.1基因组在基因内容和染色体结构方面已经具有较高质量。
ver.7.1参考基因组的基因组特征
所有组装的染色体序列两端都包含端粒串联重复 motifs(TTTAGGG)或rDNA区域。着丝粒通过CentroMiner预测,并经BLASTN搜索验证。除雄性性染色体外,着丝粒位于每条染色体的中央区域,在Tak-1和Tak-2基因组中的位置基本保守。
在常染色体上共鉴定出17,269对直系同源基因对,呈现清晰的1:1关系。整体同线性在Tak-1和Tak-2的常染色体之间保存良好,尽管在某些区域检测到小的局部倒位和插入/缺失。相比之下,性染色体(chrV和chrU)之间没有明显的同线性关系,仅检测到21对直系同源基因对,其中许多对应于先前报道的gametologs。
Tak-1基因组中唯一的组装缺口位于3号染色体的9.72 Mb处,该区域包含编码谷氨酰胺合成酶基因(Mp3g09300)的串联重复。重复单元延伸至少60 kb,该区域的读数深度超过5倍,表明实际重复长度更大。Tak-2基因组中4号染色体约27.7 Mb处的大型组装缺口对应一个跨度至少200 kb的高度重复区域,包含几个串联重复基因,注释为过氧化物酶和离子转运蛋白。
重要的是,ver.7.1组装揭示了性染色体上可能反映先前参考基因组错误组装的区域。在ver.7.1中,雄性性染色体(chrV)上未鉴定出rDNA,这与早期细胞学分析结果一致。在雌性性染色体(chrU)上,发现了一个先前未表征的三重复结构,该结构在ver.6.1中未观察到。chrU的组装长度(5.6 Mb)明显短于先前估计的约20 Mb,表明被称为XR1的大型rDNA簇区域未在组装中完全捕获。
基因注释的改进
地钱参考基因组的基因注释从ver.3.1基因组的原始注释继承而来,并在后续版本中持续维护。最广泛的更新发生在2019年仙台地钱研讨会的基因组注释Jamboree期间,共有60名研究人员参与,手动整理了4,109个基因模型。
对于ver.7.1基因组,使用Liftoff工具从MpTak_v6.1r2迁移注释。在Tak-1中,手动整理了2,011个基因模型,包括784个删除和392个新基因预测。因此,ver.7.1中注释的基因数量较ver.6.1r2略有减少。Tak-2的注释使用Liftoff从整理的Tak-1基因模型迁移,并补充了325个基因。
在ver.7.1中,所有先前未定位的基因(n=39)成功锚定到特定染色体。基因标识符根据基因映射的染色体重新分配。例如,MpLRL基因(Mp2g20695)在ver.7.1中被映射到2号染色体的5'区域。在罕见情况下,转移到不同染色体的基因被分配了新标识符以反映其新染色体位置。
基因标识符系统
当前的基因标识符系统随着染色体规模基因组组装(ver.5.1)的发布而引入,称为MpGene ID系统。每个基因位点被分配一个唯一、稳定的标识符,模仿拟南芥中使用的AGI位点代码系统。MpGene ID由前缀"Mp"、染色体编号(1-8、U或V)、表示基因的字母"g"和五位数组成(例如Mp3g09300)。
MpGene ID被设计为永久标识符,除非在特殊情况下,否则在基因组版本间保留。但是,附加到基因ID的异构体编号(例如.1、.2)在不同版本间不保留。在ver.7.1中,一部分基因被分配了临时ID,可以通过基因ID中包含下划线(_)来识别。
数据库功能
MarpolBase是一个综合性地钱基因组资源,旨在支持基因组注释、比较基因组学和功能研究。它由一个用Python实现的主Web平台组成,集成了基于Docker的基因组浏览器(WebApollo/JBrowse)和BLAST服务器(SequenceServer)。
MarpolBase的核心功能在于其基因搜索和注释系统,使用户能够通过关键词搜索和详细基因页面检索基因相关信息。这些页面提供结构和功能注释、基因序列和可视化工具,以及嵌入的基因组浏览器视图和来自MBEX的表达数据。BLAST搜索结果和基因组浏览器链接促进了不同数据层之间的无缝导航。
为了增强可用性,MarpolBase包括一套用于序列比较、基因组注释和分子生物学应用的在线分析工具。BLAST搜索支持基于同源性的序列检索,而GMAP允许cDNA序列到基因组的剪接感知比对。对于功能基因组学,MarpolBase提供了使用CASFinder实现的CRISPR/Cas9引导RNA设计工具,以及基于Flores-Sandoval等人协议的人工microRNA(amiRNA)设计工具。
除了基因组注释和分析,MarpolBase还作为研究数据的存储库,托管超过130个泛基因组数据。专用的基因组浏览器和BLAST搜索可用于可视化遗传变异,支持群体和进化研究。
基因命名数据库
Marchantia命名数据库是MarpolBase的关键组成部分,为研究人员提供了一个平台,用于注册特定位点的基因符号和相关文献。提交的条目在批准公开访问之前经过管理员审查,并链接到基因详细信息页面。
缺乏标准化命名可能导致混淆,例如Mp8g11450案例,两个独立研究组最近为其分配了不同的基因名称MpPLT和MpANT。这类案例强调了统一命名框架的必要性,以确保研究间的一致性和清晰度。
通过利用该系统,确保了基因名称标准化,防止研究间冗余或冲突的注释。它还通过将研究人员的工作与特定基因名称关联起来,促进了适当的归属和引用。"保留"状态允许在保持未发表数据机密性的同时早期注册基因符号,最大限度地降低意外重复的风险。
本研究通过PacBio HiFi测序技术实现了地钱高质量、近乎完整的端粒到端粒基因组组装,产生了ver.7.1参考基因组。这些组装解决了先前的组装缺口和结构模糊性,特别是在性染色体方面,并在基因注释方面提供了改进的连续性和准确性。更新后的注释,得到手动整理和转录组数据整合的支持,为基因水平分析提供了稳健框架。
重要的是,所有先前未定位的基因现已成功分配到染色体上,串联重复和着丝粒近端域等重复丰富区域以前所未有的精度解析。与更新的基因组一起,研究人员开发了MarpolBase的增强版本,这是一个综合基因组资源,整合了基因组序列数据、基因注释、表达谱、功能预测和统一基因命名系统。
MarpolBase通过提供可搜索的基因信息、交互式基因组浏览器和在线分析工具(包括对CRISPR/Cas9和基于miRNA的基因操作的支持),促进了高效数据探索、假设检验和跨研究比较。随着地钱作为研究早期陆地植物进化和基因功能的模型系统持续获得重视,ver.7.1基因组和MarpolBase的扩展功能将为植物研究界提供基础性资源。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号