编辑推荐:
为解决传统染色质环(Chromatin loop)预测方法存在的不足,研究人员开展了基于神经网络的染色质环预测研究。他们提出 CGLoop,经实验验证,其在预测准确性和有效性上优于其他方法,有助于深入理解 3D 基因组结构和功能。
在微观的细胞世界里,染色体就像一团精心编织的 “分子麻花”,以复杂的三维(3D)结构存在于细胞核中。其中,染色质环作为 3D 基因组结构的基本组成部分,对基因表达有着至关重要的影响。想象一下,基因是细胞活动的 “指令”,而染色质环就像是调节指令传递的 “开关”,它的结构变化能直接影响基因的转录和表达,进而调控细胞的各种功能。
随着科技的进步,高通量染色体构象捕获(Hi-C)技术让科学家们能够深入研究染色质环的奥秘。然而,现有的基于 Hi-C 技术的染色质环预测方法却存在诸多问题。比如,一些方法在特征提取方面不够充分,就像用一把钝刀去切割精细的分子拼图,无法准确地获取关键信息;还有些方法的假阳性率较高,这就好比在一堆宝藏中混入了大量的赝品,让研究人员难以分辨真假。这些问题严重阻碍了对 3D 基因组结构和功能的深入理解,就像迷雾笼罩着前进的道路。
为了驱散这层迷雾,河南理工大学、安阳工学院、河南大学、中南大学等高校的研究人员携手开展了一项极具意义的研究。他们提出了一种名为 CGLoop 的深度学习神经网络框架,旨在更精准地预测染色质环。这项研究成果发表在《BMC Genomics》杂志上,为该领域的发展带来了新的曙光。
研究人员在研究过程中运用了多种关键技术方法。首先,他们将 Hi-C 接触矩阵作为研究的 “基石”,通过 KR 归一化处理原始数据,去除数据中的系统偏差。接着,以特定规则生成 21×21 的子矩阵,为后续分析做准备。在特征提取阶段,采用卷积神经网络(CNN)结合卷积块注意力模块(CBAM)来捕捉子矩阵的局部特征,利用双向门控循环单元(BiGRU)获取相邻区域的序列特征。最后,运用基于密度的聚类方法对预测结果进行筛选,得到最终的染色质环预测。
下面让我们详细了解一下研究结果:
模型测试 :研究人员从 GM12878 细胞系的染色体 20、21 和 22 的样本集中随机选取了 22,769 个样本进行测试。结果显示,CGLoop 方法的 PRAUC 达到 0.934,准确率达到 0.911,精确率、召回率和 F1 分数均高于 0.855。这表明 CGLoop 在随机选择的数据集上实现了更准确的预测。
候选环预测 :研究人员利用已训练的模型对人类染色体 20、21 和 22(小鼠 17、18 和 19)上的所有样本进行预测,选取预测分数较高的样本作为候选染色质环。不同细胞系预测的染色质环数量有所差异,如 GM12878 细胞系的染色体 20、21 和 22 预测出的染色质环数量较多。
聚合峰分析(APA) :通过 APA 分析 ,研究人员发现 CGLoop 预测的染色质环在不同采样率下的 APA 分数均高于其他方法。这意味着 CGLoop 预测的染色质环能更好地得到 Hi-C 接触频率信号的支持,其预测结果更可靠。
富集分析 :
结构蛋白富集分析 :研究人员对 CTCF、H3K27ac、RAD21 和 SMC1 等富集因子进行分析,发现 CGLoop 预测的染色质环与这些因子的结合数量较多,且随着预测环数量的增加,结合因子的数量也逐渐增加,富集效果明显。这表明 CGLoop 预测的染色质环质量较高。
启动子和增强子富集分析 :研究人员利用从 ChromHMM 注释中提取的增强子和启动子位置信息进行验证,发现 CGLoop 能够高灵敏度地预测由增强子调控的染色质环,这为深入理解基因调控机制提供了重要线索。
重叠环定量分析 :
绝对重叠定量分析 :研究人员定义位于同一箱中的两个方法预测的环为 “绝对重叠”。结果显示,CGLoop 预测的染色质环中有 724 个与其他方法绝对重叠,这在一定程度上表明了 CGLoop 预测结果与其他方法的一致性。
错配重叠定量分析 :“错配重叠” 定义为两个环的左右锚定位置差异不大于 5kb。研究发现,CGLoop 识别的染色质环与标准集的重叠率约为 33%,且随着染色质环数量的增加,重叠率逐渐降低,进一步证明了 CGLoop 预测的高分数环更可能是真实的。
恢复效率指标(REM)分析 :REM 分析用于评估环预测方法的生物学一致性和检测性能。在 GM12878 细胞系的染色体 20、21 和 22 上,CGLoop 的重叠率相对较低,这可能是由于其预测的环数量较多,但这并不影响 CGLoop 在其他方面展现出的优秀性能。
锚定峰分析 :CTCF ChIP-seq 实验中的峰高度通常反映 CTCF 在该基因组位置的结合强度。CGLoop 分析发现,其预测的染色质环在锚定点处呈现峰值,且周围逐渐减弱,与其他方法相比,峰值表现最为明显。这说明 CGLoop 预测的染色质环更可能参与真实的染色质环形成过程。
距离分布分析 :研究人员对 GM12878 细胞系上染色质环的锚定距离分布进行统计分析,发现 CGLoop 预测的染色质环距离分布与 Peakachu 和 Mustache 相似,短距离环([0, 250] kb)占比最大。这为研究染色质环的空间分布特征提供了重要依据。
Hi-C 接触热图分析 :研究人员将不同方法预测的染色质环映射到 Hi-C 接触热图上,发现 CGLoop 预测的染色质环与其他数据集具有较高的一致性,直观地展示了 CGLoop 预测结果的可靠性。
跨细胞系和物种实验分析 :为验证 CGLoop 方法的通用性,研究人员对人类白血病细胞系(K562)、正常人胚胎肺成纤维细胞系(IMR90)和小鼠胚胎干细胞系(mESC)的 Hi-C 数据进行处理和预测分析。结果表明,CGLoop 在这些细胞系上同样表现良好,预测的染色质环均显示出转录因子和结合蛋白等结合因子的显著富集。这说明 CGLoop 方法具有良好的鲁棒性,不受细胞系和物种的限制。
在研究结论和讨论部分,CGLoop 利用卷积神经网络和循环神经网络从 Hi-C 相互作用频率数据中捕获深度特征,实现了染色质环的预测。通过一系列评估实验,如 APA 分析、结合因子富集分析等,证明了 CGLoop 在不同物种、不同细胞系和不同染色体上都能以高分辨率定位染色质环的锚定位置,具有良好的鲁棒性。然而,CGLoop 也存在一些需要改进的地方,例如在生成测试样本时,数据量巨大,生成小矩阵样本耗时较长,数据预处理算法有待优化;目前的预测方法主要针对成对接触的染色质环信息,对于三维空间中存在的多个染色质环锚定接触的情况,预测方法还需进一步调整。
尽管如此,CGLoop 的出现无疑为染色质环预测领域带来了新的突破。它就像一把精准的 “分子剪刀”,能够更准确地裁剪出染色质环的神秘面纱,为深入研究 3D 基因组结构和功能提供了有力的工具。相信随着技术的不断改进和完善,CGLoop 将在生命科学和健康医学领域发挥更大的作用,帮助科学家们揭开更多关于基因调控和细胞功能的奥秘,为未来的疾病治疗和药物研发奠定坚实的基础。
打赏
下载安捷伦电子书《通过细胞代谢揭示新的药物靶点》探索如何通过代谢分析促进您的药物发现研究
10x Genomics新品Visium HD 开启单细胞分辨率的全转录组空间分析!
欢迎下载Twist《不断变化的CRISPR筛选格局》电子书
单细胞测序入门大讲堂 - 深入了解从第一个单细胞实验设计到数据质控与可视化解析
下载《细胞内蛋白质互作分析方法电子书》