-
生物通官微
陪你抓住生命科技
跳动的脉搏
REPrise:基于非精确种子扩展算法的高灵敏度散在重复序列检测新工具
《Mobile DNA》:REPrise: de novo interspersed repeat detection using inexact seeding
【字体: 大 中 小 】 时间:2025年04月04日 来源:Mobile DNA 4.7
编辑推荐:
本期推荐:日本早稻田大学团队开发REPrise算法,通过引入非精确种子(d=2)、仿射空位罚分和宽松屏蔽技术,显著提升散在重复序列检测灵敏度,在T2T-CHM13人类基因组中发现17个新型转座元件家族,为缺乏重复序列数据库的物种基因组注释提供强大工具。
在基因组研究的浩瀚星图中,散在重复序列如同神秘的暗物质,占据着人类基因组的54%和小麦基因组的85%。这些主要由转座元件(TEs)构成的序列曾被视为"垃圾DNA",如今却被发现参与RNA加工、转录调控等关键生命过程。然而,当前主流的RepeatScout等工具在检测高度变异的重复序列时仍存在灵敏度不足的问题,特别是对于缺乏完善重复序列数据库的非模式生物基因组。日本早稻田大学联合东京大学的研究团队在《Mobile DNA》发表的研究,开发了名为REPrise的创新算法,通过三大核心技术突破实现了散在重复序列检测的灵敏度飞跃。
研究团队采用种子扩展算法框架,主要技术路线包含:1)基于后缀数组构建允许d个错配的非精确种子表(d=0-2);2)采用仿射空位罚分(gap open=5,extension=1)进行带限比对;3)仅屏蔽用于检测的种子区域(宽松屏蔽策略)。通过CD-HIT聚类(相似度阈值80%)消除冗余,最终输出重复家族共识序列。实验使用水稻基因组(IRGSP 1.0)、模拟数据集(突变率5%-45%)和T2T-CHM13 v2.0人类基因组进行验证。
在"水稻基因组数据集评估"部分,研究显示REPrise(d=2)的灵敏度达94.08%,显著高于RepeatScout的89.62%。特别对非LTR元件的检测优势明显,这得益于非精确种子对高变异序列的捕捉能力。模拟实验证实当突变率>30%时,REPrise(d=2)的F值比RepeatScout提高12%,且仿射空位罚分使 indel为主的变异检测准确率提升15%。
"完整人类基因组分析"中,REPrise(d=2)成功鉴定出17个新型重复家族。其中NRF-1家族100%位于KRTAP9基因家族上游,可能参与基因复制事件;NRF-2家族71%区域位于Y染色体新测序区。通过LAST比对和系统发育分析,发现NRF-10可能是LTR19家族新亚型,与HERVFH19内源性逆转录病毒相关;NRF-13则可能代表LTR45家族的新分支。
该研究的突破性在于:首次将生物信息学中的非精确种子概念引入重复序列检测,通过仿射空位罚分更好处理indel变异,宽松屏蔽策略减少候选区域损失。相比仅能处理400MB样本的RepeatModeler2,REPrise可直接分析3.1GB的人类全基因组,为地球生物基因组计划等大尺度项目提供新工具。未来通过稀疏种子或strobemer等算法优化,有望进一步解决计算效率问题。这项研究不仅为重复序列进化研究提供新视角,也为非模式生物的基因组注释开辟了新途径。
涓嬭浇瀹夋嵎浼︾數瀛愪功銆婇€氳繃缁嗚優浠h阿鎻ず鏂扮殑鑽墿闈剁偣銆嬫帰绱㈠浣曢€氳繃浠h阿鍒嗘瀽淇冭繘鎮ㄧ殑鑽墿鍙戠幇鐮旂┒
10x Genomics鏂板搧Visium HD 寮€鍚崟缁嗚優鍒嗚鲸鐜囩殑鍏ㄨ浆褰曠粍绌洪棿鍒嗘瀽锛�
娆㈣繋涓嬭浇Twist銆婁笉鏂彉鍖栫殑CRISPR绛涢€夋牸灞€銆嬬數瀛愪功
知名企业招聘
今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号