SDFA:基于标准化分解格式的高效结构变异分析工具包推动大规模群体基因组研究

【字体: 时间:2025年10月01日 来源:Genome Biology 9.4

编辑推荐:

  本研究针对大规模群体基因组研究中结构变异(SV)分析的计算瓶颈,开发了标准化分解格式(SDF)及工具包SDFA。该工具实现了SV的高效存储与检索,提供稳定的群体水平合并算法、内存高效的注释方法及创新的基因特征数值注释(NAGF)。在UK Biobank等数据集验证中,SDFA的合并速度较现有工具提升17.64倍,注释速度提升120.93倍,且独家支持复杂SV解析,为群体尺度SV研究提供了突破性解决方案。

  
在基因组学研究领域,结构变异(Structural Variants, SVs)作为长度大于50碱基对的基因组改变,包括缺失、插入、重复、倒位、易位等类型,对遗传多样性有着重要影响。近年来研究发现,SVs在人类基因组中影响的中位数达890万碱基对,显著超过单核苷酸变异(SNVs)的360万碱基对,表明SVs在个体遗传差异中的深远影响。越来越多的证据显示,SVs在表型变异和疾病易感性中发挥关键作用,例如在自闭症和癌症中的重要作用。然而,由于复杂基因组区域内SVs准确识别的挑战,其全面影响仍未被充分探索。
随着长读长测序技术的发展,以及专用比对和变异调用算法的进步,我们检测SVs(包括复杂变异)的能力显著提高。同时,大型项目如UK Biobank发布的大规模数据集为群体水平的SV分析铺平了道路。这些发展为阐明SVs的功能后果提供了前所未有的机遇。然而,现有的计算方法存在显著局限性:许多工具在解析常规变异调用格式(VCF)中的SVs时要么不准确要么效率低下;随着样本量增加,合并多个个体的SVs变得计算量大且可能产生不一致的结果;使用扩展的基因组资源注释SVs对大规模数据的计算效率提出挑战。这些问题的根本原因可能是这些方法没有针对SVs的复杂特征(如可变类型、不精确长度和多边界)设计更高效的数据结构。
针对这些挑战,Peng等人在《Genome Biology》发表了题为"SDFA: a standardized decomposition format and toolkit for efficient analysis of structural variants in large-scale population genomic studies"的研究论文,介绍了一种名为SDFA的标准化分解格式和工具包,用于高效分析群体样本中的结构变异。
研究人员开发了四个核心技术组件:首先提出了一种新颖的标准化分解格式(SDF),旨在使用可索引的基因组坐标标准化、压缩和存储各种类型的SVs;其次设计了群体规模的SV合并模块,利用SDF的排序和可索引特性,开发了群体范围的合并程序;第三开发了索引滑动窗口注释算法,用于轻量快速注释SDF中的SVs;最后引入了基因特征数值注释(NAGF),使用位字节编码量化SV对多个基因特征的影响。
研究采用的技术方法主要包括:基于1100个VCF文件(涵盖10个公共个体、5种比对工具和10种SV调用方法)的系统性能评估;使用92个VCF文件(来自HPRC的46个个体)进行合并算法验证;应用UK Biobank数据集(150,119个个体的895,054个SVs)进行大规模应用验证;以及开发基于字节编码的基因特征数值注释方法。
高效SV转换和压缩性能
研究人员通过1100个VCF文件(总计79.23 GB)系统评估了SDFA的转换性能。结果显示,SDFA在解析复杂SV类型方面表现卓越,而其他常规工具在提取复杂SVs时经常遭受部分信息遗漏。SDFA成功解析了被归类为"BND"和"TRA"的14,005,467个SVs(占1000个文件中所有SVs的5.28%),以及SVision调用的266,807个嵌套SVs(占SVision生成的所有SVs的2.01%)。在转换速度方面,单线程SDFA平均每秒处理157,711个SVs,整体速度比Truvari快7.19倍,比pyvcf快6.07倍。
群体规模SV推断的稳健高性能合并
使用来自HPRC的46个个体的92个VCF文件评估合并效果时,SDFA在合并SV的开始和结束位置显示出显著更低的距离。与SURVIVOR相比,SDFA在CuteSV2和Sniffles中显示的中位结束距离分别为27bp和8bp,优于SURVIVOR的34bp。在时间效率方面,在四线程条件下,SDFA运行速度平均比其他工具快17.64倍,且随着样本量增加性能提升。在736个样本(总计54.4 GB)的测试中,SDFA仅使用7GB内存就完成了SV合并。
通过SDFA优化SV注释:速度、多功能性和定制化
在注释性能评估中,SDFA在基因特征注释和多资源注释类别中均表现优异。对于基因特征注释,SDFA在单线程环境下比Vcfanno快16.04倍,在四线程环境下快35.02倍。在多资源注释能力方面,SDFA在单线程设置下比AnnotSV快至少40.89倍,在四线程设置下快120.93倍。SDFA还独家支持多种复杂SV类型,包括染色体间BNDs、易位和嵌套SVs。
SDFA支持的基因特征数值注释
NAGF方法使用8位表示受影响的基因特征区域,5个字节表示每个基因特征区域的受影响区域比例。应用NAGF注释CuteSV2识别的46个个体中的SVs时,成功识别了789,790个影响至少一个基因特征(覆盖率>0%)的SVs。将外显子区域的NAGF覆盖率阈值提高到5%后,相应SVs数量从初始的789,790减少到295,026。使用NAGF结果,研究人员有效总结了影响蛋白质编码(NAGF值≥64)和非编码基因(NAGF值≤-64)外显子区域的各种类型SVs的数量。
使用SDFA进行大规模群体SV样本的应用
通过UK Biobank数据集的应用演示,SDFA展示了在收集、编译和注释大规模SV数据用于SV基于全基因组关联研究(GWAS)的效率。数据集包含3044个vcf.gz文件,压缩后达450 GB。SDFA首先将每个vcf.gz文件中的所有SVs解析到SDF数据中,识别出673,659个缺失、187,983个插入和33,412个重复,总计895,054个SVs。经过质量控制后,通过QC的SV数据仅占原始vcf.gz文件大小的0.82%。
研究结论表明,SDFA通过引入新颖的SDF结构来分解所有类型SVs的复杂性,实现了高效存储和注释。基于SDF,SDFA设计了群体范围合并算法和索引滑动窗口注释用于SV合并和注释,以及基因特征数值注释(NAGF)方法进行简洁精确的注释。与现有工具在真实数据集上的比较显示,SDFA在速度、准确性和稳健性方面均表现优异。这些进步代表了群体规模SV分析领域的重大飞跃。
讨论部分强调,SDF作为SDFA的基石,革命性地改变了SV数据管理。通过有效标准化和压缩VCF文件中的SV信息,SDF实现了更有效的复杂SV数据存储和检索。基于SDF,SDFA构建了群体范围合并算法和索引滑动窗口注释用于SV合并和注释。在SV合并方面,SDFA的合并算法通过确保无论输入文件顺序如何都能获得一致结果,满足了群体规模SV分析的关键需求。对于SV注释,SDFA中实现的索引滑动窗口注释算法代表了SV注释领域的重大进展。
该研究的重要意义在于解决了当前SV分析工具的关键限制,为群体规模SV研究提供了强大、高效的工具。通过实现跨大型队列更全面和准确的SV分析,SDFA有潜力显著推进我们对基因组变异及其在人类生物学和疾病中作用的理解。随着基因组研究规模和复杂性的不断增长,像SDFA这样的工具将完全利用包含在群体规模测序数据集中的丰富信息至关重要,为个性化医学和人类遗传多样性理解方面的发现铺平道路。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号