基于改进鲸鱼优化算法与BP神经网络的低纯度低覆盖率CNV检测新方法
《Complex System Modeling and Simulation》:CNV_IWOABP: Collaboration of improved whale optimization algorithm and BP neural networks for copy number variations
【字体:
大
中
小
】
时间:2025年11月27日
来源:Complex System Modeling and Simulation CS13.7
编辑推荐:
本刊编辑推荐:为解决低纯度、低覆盖率测序数据中拷贝数变异(CNV)检测精度不足的问题,研究人员开展了一项结合改进鲸鱼优化算法(IWOA)与BP神经网络的混合算法(IWOABP)研究。通过引入自适应惯性权重机制、种群多样性增强策略以及多特征融合技术,该模型在模拟和真实数据中均表现出优异的敏感性、精确度和F1-score,为基因组结构变异研究提供了可靠工具。
在基因组学研究领域,拷贝数变异(CNV)作为重要的结构变异类型,与癌症、阿尔茨海默病、白化病等人类疾病的发生密切相关。然而,当前基于下一代测序(NGS)技术的CNV检测方法在面对低肿瘤纯度(如0.2-0.4)和低测序覆盖率(4x-6x)数据时,仍存在检测精度不足、易受GC含量偏差和测序噪声干扰等挑战。特别是传统的BP神经网络方法虽然具有强大的非线性映射能力,但容易陷入局部最优解且收敛速度较慢,这严重限制了其在复杂基因组数据分析中的应用效果。
针对这些技术瓶颈,发表在《Complex System Modeling and Simulation》的研究论文提出了一种创新的解决方案——CNV_IWOABP算法。该研究团队通过将改进的鲸鱼优化算法(IWOA)与BP神经网络相结合,成功构建了一个能够有效检测低质量测序数据中CNV的智能模型。
在研究设计上,团队首先对CNV类型进行了精细化分类,将增益(gain)细分为串联增益(tand_gain)和分散增益(inte_gain),将缺失(loss)细分为半缺失(hemi_loss)和纯合缺失(homo_loss),使检测结果更符合生物学实际。接着开发了包含读深(Ri)、GC含量(Gi)、相邻位置相关性(Ci)和映射质量(Qi)的四特征体系,通过归一化处理消除量纲影响。
关键技术方法方面,研究团队主要突破了三个核心创新点:首先设计了池化机制和迁移搜索策略,通过矩阵存储和随机位置更新增强种群多样性;其次引入基于余弦函数的自适应惯性权重(ω=rand×cos(π/2×(1-t/ITmax))),动态平衡算法的探索与开发能力;最后融合遗传算法的选择交叉策略和模拟退火(SA)的接受准则,有效避免局部最优。这些改进使得IWOA能够优化BP神经网络的权重和偏置,显著提升模型性能。
在数据预处理环节,研究采用BWA[31]和SAMtools[32]工具处理参考基因组序列,去除"N"位置后以1000bp为默认窗口大小进行分段,计算每个基因组区间的平均读计数(RC)值作为RD值。这种处理方式有效减少了测序错误和低质量数据对分析结果的干扰。
研究结果部分通过模拟数据和真实样本验证了算法的优越性。在模拟数据研究中,团队使用IntSim生成6种不同配置(纯度0.2-0.4,覆盖率4x-6x)的Chr21测序数据,每种配置50个样本,共300个模拟实验样本。如表1所示,IWOABP能清晰区分五类拷贝数状态,其中正常区域占绝大多数(约34474个窗口),CNV区域占比较小但检测稳定。
性能比较显示,IWOABP在六类样本中的F1-score均达到最高(0.95),显著优于CNVnator、FREEC、GROM_RD等七种对比方法。特别是在低纯度条件下(纯度0.2,覆盖率6x),IWOABP的敏感性(0.90)远超FREEC(0.31)和CNVnator(0.25)。ROC曲线分析进一步证实,IWOABP的曲线最接近左上角,表明其具有最优的真阳性率(TPR)和假阳性率(FPR)平衡能力。
边界偏差分析表明,IWOABP在六种配置下的边界偏差均小于MFCNV,证明其能更精确地定位CNV边界。这主要归功于改进的螺旋气泡网攻击策略和自适应惯性权重机制,使算法能在全局搜索和局部优化间取得良好平衡。
在真实数据验证中,研究选用1000基因组计划中的NA19238、NA19239和NA19240三个真实样本(Chr21)。基于基因组变异数据库(DGV)的验证结果显示,IWOABP检测出的CNV数量最多(分别为295、229、242个),虽然MFCNV在个别样本中表现出更高精确度,但IWOABP在敏感性(均>0.9)和综合性能(F1-score)上保持领先。这表明IWOABP能更全面地识别CNV区域,尽管可能产生稍多的假阳性。
讨论部分指出,该研究的创新性体现在三个方面:一是避免传统GC含量校正可能引入的误差,直接将GC含量作为特征值;二是通过IWOA优化克服BP神经网络的局部最优问题;三是首次将CNV细分为五类状态进行检测。这些创新使得IWOABP在低质量数据条件下仍能保持稳定性能。
研究结论强调,IWOABP为低纯度、低覆盖率测序数据中的CNV检测提供了有效解决方案。未来研究方向包括扩展至肿瘤-正常配对样本分析、单细胞测序数据应用以及结合深度学习和多目标优化方法。该算法在精准医疗和疾病机制研究领域具有重要应用价值,为基因组变异分析提供了新的技术路径。
表1和表2的详细数据进一步佐证了IWOABP在CNV检测中的稳定性和可靠性。通过多维度验证,该研究不仅提出了一种新颖的计算方法,更为解决基因组学数据分析中的关键技术难题提供了重要参考。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号