雌性卵形鲳鲹(Trachinotus anak)端粒到端粒单倍型分相基因组的完整组装与分析
《Scientific Data》:Telomere-to-telomere haplotype-resolved genome assembly of a female oyster pompano (Trachinotus anak)
【字体:
大
中
小
】
时间:2025年12月03日
来源:Scientific Data 6.9
编辑推荐:
本研究针对卵形鲳鲹(Trachinotus anak)现有基因组组装存在碎片化、不完整的问题,研究人员利用PacBio HiFi、ONT ultra-long和Hi-C数据,首次构建了雌性卵形鲳鲹的两个单倍型分相、端粒到端粒(T2T)级别的基因组组装。结果显示,单倍型A和B分别长达663.78 Mb和661.09 Mb,contig N50达28.62 Mb和29.02 Mb,均锚定至24条无间隙染色体,包含完整的48个端粒。QV值分别为70.45和68.66,BUSCO完整性达98.9%和99.0%。该高质量基因组为卵形鲳鲹的分子育种、功能基因组学和进化研究提供了重要资源。
卵形鲳鲹(Trachinotus anak)是我国海水养殖产量最高的鱼类之一,因其肉质鲜美、生长迅速、适应性强而备受青睐。然而,尽管其养殖规模不断扩大,基因组学研究却长期受限于现有基因组组装的高度碎片化和不完整性。此前发布的多个版本仅达到染色体水平,存在大量间隙,且缺乏完整的端粒结构,严重制约了分子育种、功能基因挖掘和进化生物学研究的深入。为此,广东海洋大学等单位的研究团队在《Scientific Data》上发表了最新研究成果,成功构建了雌性卵形鲳鲹的首个端粒到端粒(Telomere-to-Telomere, T2T)、单倍型分相(haplotype-resolved)基因组,为这一重要经济鱼类的基因组资源提供了里程碑式的补充。
为开展此项研究,作者首先从海南蓝粮农业科技有限公司获取经表型和基因型鉴定的雌性个体,利用肌肉组织提取高质量基因组DNA,并采集心、肝、脾、肾等九种组织进行RNA提取。关键技术方法包括:基于PacBio Revio平台的HiFi长读长测序、Oxford Nanopore PromethION P48平台的超长读长测序、DNBSEQ-T7平台的短读长和Hi-C测序,以及基于Hifiasm的基因组组装、ALLHiC和Juicer等工具的染色体挂载、quarTeT工具包的端粒和着丝粒区域识别、RepeatModeler和RepeatMasker的重复序列注释、MAKER整合多证据的基因预测等。
通过整合PacBio HiFi、ONT ultra-long和Hi-C数据,研究团队采用Hifiasm(版本0.19.9-r616)进行初步组装,再借助ALLHiC(版本0.9.8)和Juicebox(版本1.11.08)进行染色体级别的挂载与手动校正,最终获得两个单倍型基因组(hapA和hapB)。hapA总长度为663.78 Mb,hapB为661.09 Mb,各自包含24条染色体,contig N50分别达到28.62 Mb和29.02 Mb。通过ONT读长对端粒区域进行修复,所有48条染色体末端均检测到超过100次串联重复的“TTAGGG” motif,证实组装达到T2T水平。
Telomeric and centromeric regions analysis
利用quarTeT(版本1.2.1)工具包中的TeloExplorer模块,研究人员在所有染色体两端均成功识别出典型端粒重复序列。着丝粒预测通过CentroMiner模块完成,在两组单倍型中各发现19条染色体存在明确的着丝粒信号,其余5条染色体因含有非典型卫星重复或复杂转座子插入而未被检测出。
Repeat element and non-coding RNA annotation
重复序列注释结合了de novo和同源比对方法。在hapA和hapB中,分别鉴定出161.26 Mb(24.29%)和152.64 Mb(23.09%)的分散重复序列,以及26.68 Mb(4.02%)和25.99 Mb(3.93%)的串联重复序列。非编码RNA注释结果显示,hapA中包含2,742个miRNA、1,373个tRNA、4,842个rRNA和1,569个snRNA;hapB中则分别为2,353个miRNA、1,404个tRNA、3,607个rRNA和2,278个snRNA。
Gene prediction and functional annotation
基因结构预测整合了转录组、同源比对和ab initio三种证据。最终在hapA和hapB中分别预测出23,118和23,119个蛋白质编码基因,其中99.79%和99.78%的基因获得功能注释。KEGG、GO、UniProt等数据库的注释结果显示,绝大多数基因在代谢通路、细胞组成和分子功能方面具有明确注释。
团队对初始组装和最终组装进行了多维度质量评估。在四种不同组装策略中,Hifiasm(HiFi+ONT+Hi-C)组合表现最优,contig N50达27.62 Mb,QV值为61.07,BUSCO完整性为98.9%。最终组装中,hapA和hapB的QV值进一步提升至70.45和68.66,短读长、ONT和HiFi读长的比对率均超过99.7%,BUSCO完整性分别为98.9%和99.0%。污染评估通过BLAST比对和FCS-GX(版本0.5.5)确认组装无外源污染。
综上所述,本研究首次报道了卵形鲳鲹的T2T级别、单倍型分相基因组,填补了该物种高质量基因组资源的空白。两组单倍型组装在连续性、准确性和完整性方面均显著优于以往版本,所有染色体实现无间隙闭合,端粒结构完整,重复序列和基因注释全面。这一资源不仅为卵形鲳鲹的分子育种、重要性状相关基因挖掘提供了坚实基础,也为鲹科鱼类的比较基因组学和进化研究开辟了新的视角。所有组装数据、注释文件及原始测序数据均已公开存储于欧洲核苷酸档案库(ENA)、国家基因组科学数据中心(NGDC)和Figshare平台,供全球研究者免费使用。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号