《Journal of Human Genetics》:Profiling of runs of homozygosity from whole-genome sequence data in Japanese biobank
编辑推荐:
在日本人群的全基因组测序研究中,以往对 Runs of homozygosity(ROH)分析存在局限。研究人员对 3552 名日本个体和 192 个三代家庭的高覆盖全基因组测序(WGS)数据进行分析,发现 WGS 能检测到更多短 ROH,利用家系信息可减少测序误差,且明确了 ROH 岛相关基因功能,为遗传研究提供重要依据。
在生物的基因组世界里,纯合片段(Runs of homozygosity,ROH)就像隐藏的密码,广泛分布于各种物种的基因组中,与人类众多性状、常见疾病以及罕见隐性疾病都有着千丝万缕的联系。过去,研究人员主要借助单核苷酸多态性(Single Nucleotide Polymorphism,SNP)阵列数据来探索 ROH 的奥秘,但这种方法存在明显缺陷,对于短 ROH 的检测能力有限。随着全基因组测序(Whole Genome Sequencing,WGS)技术的飞速发展,高分辨率检测 ROH 成为可能,可新的问题又接踵而至,测序过程中产生的错误会干扰 ROH 的精准识别。而且,以往对日本人群 ROH 模式的研究多基于小规模、低覆盖数据,缺乏全面深入的了解。为了打破这些研究困境,来自日本东北大学等机构的研究人员开启了一项意义重大的研究。
研究人员运用两个高覆盖的 WGS 数据集,即 3552 名日本个体的 3.5KJPNv2 数据集和 1120 名日本个体的 BirThree 数据集(包含家系信息),深入剖析 ROH。他们借助 BCFtools 和 PLINK 等工具,开展了一系列严谨的分析工作。最终研究成果发表在《Journal of Human Genetics》上。
在技术方法上,研究人员首先利用两个高覆盖(约 30x)的 WGS 数据集进行研究。为探究标记密度对 ROH 检测的影响,他们生成了仅包含 SNP 阵列位点基因型的修剪数据集。在 ROH 检测环节,运用 BCFtools 和 PLINK 1.90 软件,设置不同参数进行分析。此外,通过创建修改版的 3.5KJPNv2 数据集(pruned 3.5KJPNv2 dataset),来区分测序误差和 SNP 标记密度的影响 。
下面来看具体的研究结果:
- ROH 片段总数:研究人员在 3.5KJPNv2 数据集上开展分析,比较了不同工具(BCFtools 和 PLINK)在不同位点(所有变异位点和基于阵列的位点)检测到的 ROH 长度区间。结果发现,在 100 KB 至 1.5 Mb 区间,所有变异位点检测到的 ROH 更普遍;而大于 1.5 Mb 的长 ROH,在基于阵列的位点中更丰富。
- 平均 ROH 片段数(NROH)和平均累积长度(SROH)
- ROH>1.5Mb(3.5KJPNv2 数据集):设定最小 ROH 长度为 1.5 Mb 检测长 ROH 时,发现基于阵列的位点比所有变异位点更易检测到ROH1500? 。调整 PLINK 参数(允许每个窗口更多杂合子调用)后,与 BCFtools 检测结果可比,证实了测序误差对长 ROH 检测的影响。
- ROH>1.5Mb(BirThree 数据集):BCFtools 在 BirThree 数据集的所有变异位点检测到的ROH1500? 比基于阵列的位点更多,且 PLINK 分析时每个窗口允许的杂合子调用数可减少到 2,说明该数据集对测序误差的耐受性更好。
- ROH>100 Kb: 在 BirThree 数据集所有变异位点运行 BCFtools 检测ROH100? ,发现与 3.5KJPNv2 数据集相比,检测到的数量显著减少。不同数据集随 ROH 最小长度变化呈现出相反趋势。
- ROH 岛和功能分析:研究人员通过设定 99.9th 或 99.5th 百分位数阈值定义 ROH 岛,并进行功能分析。结果发现,BCFtools 检测到的 ROH 岛相关基因家族涉及蛋白质去泛素化、味觉和嗅觉感知等重要通路。例如,USP17 基因家族参与蛋白质去泛素化等过程;TAS2R 家族成员与味觉受体活性等相关;多个 OR4 基因驱动嗅觉受体相关通路的富集 。
研究结论和讨论部分意义非凡。此次研究表明,高覆盖基因组测序结合无关个体和家系信息,能够检测到基因分型阵列无法发现的短 ROH。虽然长 ROH 易受测序误差影响,但整合家系信息可有效减少这些误差。研究人员还对 ROH 片段的精细检测进行了对比分析,发现包含家系数据的 WGS 数据集在功能通路富集方面表现更优。这一研究成果为深入理解基因组区域的功能、探索遗传与疾病的关系提供了关键线索,也为后续研究指明了方向,如进一步探究 ROH 在基因组中影响疾病和性状的具体位置,并与全基因组关联研究中已确定的显著位点建立联系。未来,研究人员计划利用高覆盖 WGS 数据,与全球研究团队合作开展 ROH 纯合性作图研究,持续挖掘基因组中隐藏的奥秘,为生命科学和健康医学领域的发展贡献更多力量。
娑撳娴囩€瑰宓庢导锔炬暩鐎涙劒鍔熼妴濠団偓姘崇箖缂佸棜鍎禒锝堥樋閹活厾銇氶弬鎵畱閼筋垳澧块棃鍓佸仯閵嗗甯扮槐銏狀洤娴f洟鈧俺绻冩禒锝堥樋閸掑棙鐎芥穱鍐箻閹劎娈戦懡顖滃⒖閸欐垹骞囬惍鏃傗敀
10x Genomics閺傛澘鎼isium HD 瀵偓閸氼垰宕熺紒鍡氬劒閸掑棜椴搁悳鍥╂畱閸忋劏娴嗚ぐ鏇犵矋缁屾椽妫块崚鍡樼€介敍锟�
濞嗐垼绻嬫稉瀣祰Twist閵嗗﹣绗夐弬顓炲綁閸栨牜娈慍RISPR缁涙盯鈧鐗哥仦鈧妴瀣暩鐎涙劒鍔�
閸楁洜绮忛懗鐐寸ゴ鎼村繐鍙嗛梻銊ャ亣鐠佹彃鐖� - 濞e崬鍙嗘禍鍡毿掓禒搴n儑娑撯偓娑擃亜宕熺紒鍡氬劒鐎圭偤鐛欑拋鎹愵吀閸掔増鏆熼幑顔垮窛閹貉傜瑢閸欘垵顫嬮崠鏍掗弸锟�
娑撳娴囬妴濠勭矎閼崇偛鍞撮摂瀣鐠愩劋绨版担婊冨瀻閺嬫劖鏌熷▔鏇犳暩鐎涙劒鍔熼妴锟�