PhyloCNN:基于节点邻域表征与深度学习的系统发育树分析新方法

《Systematic Biology》:PhyloCNN: Improving tree representation and neural network architecture for deep learning from trees in phylodynamics and diversification studies

【字体: 时间:2025年11月24日 来源:Systematic Biology 5.7

编辑推荐:

  本研究针对复杂进化模型下系统发育树分析的计算难题,提出了一种基于节点邻域特征编码的深度学习框架PhyloCNN。通过设计双通道卷积神经网络架构,该方法在仅需万级训练样本的条件下,即可实现高精度的出生-死亡模型选择与参数估计,在HIV传播动力学和灵长类多样化案例中展现出优于传统似然法和现有深度学习方法的性能,为系统发育研究提供了高效可靠的新工具。

  
在进化生物学和流行病学研究领域,科学家们常常通过分析系统发育树来揭示物种分化或病原传播的动态过程。出生-死亡模型作为描述这些过程的核心数学框架,能够模拟物种形成(出生)、灭绝(死亡)或病原传播(感染)、宿主恢复(移除)等关键事件。然而,随着研究问题的复杂化,传统的基于似然函数的方法面临着严峻的计算挑战。对于大多数出生-死亡模型,似然值的计算需要求解庞大的常微分方程组,这一过程不仅计算成本高昂,还容易产生数值误差。更棘手的是,某些模型参数在缺乏额外约束条件时存在不可识别性问题,使得准确估计参数变得异常困难。
为了突破这些限制,研究人员转向了无需似然函数的模拟推断方法。其中,近似贝叶斯计算通过比较模拟数据与真实数据的摘要统计量来进行推断,但这种方法存在明显缺陷:摘要统计量的选择具有一定主观性,可能无法充分捕捉原始数据的全部信息;同时,其拒绝步骤会丢弃大量模拟数据,导致信息利用效率低下。尽管回归型ABC和深度学习方法的出现部分缓解了这些问题,但现有深度学习框架如基于紧凑双射阶梯化向量编码的方法仍需数百万训练样本才能达到令人满意的精度,这严重限制了其在特定数据和模型探索中的应用。
为此,曼努洛·费尔南德斯·佩雷斯和奥利维尔·加斯奎尔在《Systematic Biology》上发表了题为"PhyloCNN: Improving tree representation and neural network architecture for deep learning from trees in phylodynamics and diversification studies"的研究论文,提出了一种全新的树表征方法和专用的神经网络架构PhyloCNN。该方法通过编码每个节点邻域的拓扑和时序特征,结合双通道深度可分离卷积网络,显著降低了对训练数据量的需求,在系统发育动力学和多样化研究中实现了快速、准确的模型选择与参数估计。
关键技术方法主要包括:1)基于节点邻域的三层级特征编码系统(无上下文、1-邻域、2-邻域),提取节点时间深度、分支长度、后代叶节点数量等特征;2)专为系统发育树设计的双通道深度可分离卷积神经网络,分别处理内部节点和叶节点特征;3)基于温度缩放的概率校准技术,提高模型选择的可信度;4)采用参数化自助法近似后验分布,计算可信区间。研究使用Python ete3包进行树结构处理,Keras-TensorFlow框架构建神经网络,并利用已有的BEAST2、Castor等软件模拟生成训练数据。
模型与数据集构建
研究聚焦于系统发育动力学中的BD(简单出生-死亡)、BDEI(带潜伏期)和BDSS(超级传播者)模型,以及宏观进化中的BiSSE(二元状态依赖多样化)模型。通过随机抽样参数值,分别生成10万棵训练树和1000棵测试树,树的大小控制在200-500个叶节点之间,确保了数据集的广泛代表性。
树表征与架构优化
PhyloCNN的核心创新在于将树转化为节点邻域特征表,其中每个节点(包括内部节点和叶节点)被表示为一行特征向量。特征包括但不限于节点到根的时间、到父节点的分支长度、后代叶节点数量等。通过比较三种不同邻域范围(无上下文、1-邻域、2-邻域)的表征效果,发现 richer context(如2-邻域)在训练样本较少时(如1万棵树)仍能保持较高精度,尤其对于复杂模型(如BDSS、BiSSE)的参数估计更为稳健。
模拟数据性能验证
在模型选择任务中,PhyloCNN使用2-邻域表征在仅1万训练树/模型的条件下,对三种系统发育动力学模型的分类准确率高达99.4%,显著优于需要400万训练树的PhyloDeep方法(91.4%)和BEAST2(90.7%)。在参数估计方面,PhyloCNN(100K训练树)在BDSS模型中对基本再生数R0和感染期1/γ的估计相对误差(MRE)分别为0.078和0.086,均低于对比方法。对于BiSSE模型,PhyloCNN在100K训练树下对物种形成率λ0、λ1的估计绝对误差(MAE)分别为0.025和0.024,较DeepTimeLearning(1M训练树)误差降低约50%。
实证研究应用
在HIV传播案例(苏黎世男男性行为者群体)中,PhyloCNN成功识别出BDSS模型为最优拟合(后验概率0.84),估计的超级传播者比例fSS为0.15-0.35,传播率比XSS为5.2-9.8,与BEAST2结果高度一致但计算时间大幅缩短。在灵长类多样化研究中,PhyloCNN重建了互惠型(状态0)与拮抗型(状态1)灵长类物种的形成率差异(λ0=0.378 vs λ1=0.116),结果与最大似然估计相近,且克服了Hisse软件在部分案例中的收敛问题。
噪声数据鲁棒性测试
通过随机扰动BiSSE测试集中三分之一叶节点的状态值,PhyloCNN在噪声条件下的参数估计平均绝对误差(0.046)仍显著低于DeepTimeLearning(0.081)和Hisse(0.065),证明了方法对实际数据中状态不确定性的耐受能力。
研究结论表明,PhyloCNN通过协同优化树表征与神经网络架构,实现了系统发育树分析效率的质的飞跃。其关键优势在于:1)摆脱了对摘要统计量的依赖,直接从未经简化的树结构中学习特征;2)将训练数据需求降低两个数量级(从百万级至万级),使复杂模型的快速探索成为可能;3)在保持高精度的同时,大幅提升计算效率,为处理具有特定参数空间和采样场景的真实数据提供了实用工具。尽管在似然函数可精确计算的简单模型(如BD)中,传统方法仍具优势,但对于多数缺乏解析解或常微分方程求解困难的复杂模型,PhyloCNN无疑提供了更可靠的替代方案。未来,该方法可扩展至更复杂的进化模型(如HiSSE、多状态模型),并结合时间动态参数估计等方向,进一步推动系统发育推断方法学的发展。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号