
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于迁移学习与置换不变性的复杂系统全基因组细胞特异性干预效应预测模型SETComp构建与应用验证
【字体: 大 中 小 】 时间:2025年09月21日 来源:Advanced Science 14.1
编辑推荐:
本研究创新性地结合迁移学习与置换不变性深度学习技术,开发了SETComp模型(Set Embedding and Transfer learning model for Complex systems),通过大规模单化合物干预数据预训练与复杂系统(如天然产物)数据微调,实现了对复杂系统全基因组、细胞特异性及方向性干预效应的高精度预测。模型在测试集准确率达93.86%,体外实验验证准确率最高达88.65%,显著优于基线模型5.82%-27.59%。研究证实了模型在机制探索(如p53信号通路调控)和药物重定位(如糖尿病、高血压等疾病)等生物医学场景的应用潜力,为精准医疗提供了新范式。
随着人工智能和高通量组学技术的发展,研究者对疾病机制和药物开发等生物医学问题的理解日益深入。单一药物往往难以应对复杂疾病的复杂机制,基于多药物或天然产物(NP)等复杂系统的联合疗法逐渐成为研究热点。然而,相较于单化合物靶点预测,复杂系统靶点预测需整合化合物间相互作用、副作用等信息,且面临成分数量不确定的挑战。现有复杂系统预测算法存在局限性,如无法基于特定实体(如靶细胞)预测、预测精度低、无法进行方向性预测及依赖先验知识等。
当前,单化合物干预转录组学数据(如LINCS项目的CMap)积累丰富,而复杂系统干预数据相对稀缺。迁移学习作为深度学习技术,在样本量有限的场景中具有良好适用性。同时,基于集合的深度学习具有置换不变性特性,Deep Sets和Set Transformer等模型能有效处理无序集合数据。本研究利用迁移学习技术,将复杂系统视为化合物组合集合,采用置换不变性深度学习作为核心框架,开发了SETComp模型,旨在预测化合物和复杂系统的全基因组、细胞特异性及方向性靶点。
SETComp模型结合迁移学习与集合深度学习,核心模块包括三个冻结编码器(化合物编码器、基因编码器和细胞状态编码器)和三个内部模块(特征提取、特征整合和预测模块)。化合物编码器结合训练好的Infograph图神经网络和指纹编码器;基因编码器整合轻量级预训练大语言模型(LLM)和基于蛋白质相互作用(PPI)网络的node2vec模型;细胞状态编码器为在TCGA表达谱上训练的变分自编码器(VAE)。内部模块以集合嵌入模块为核心,包含基于Deep Sets的初始嵌入和基于Set Transformer的深度嵌入,以及自监督模块和由多层多层感知机(MLP)组成的预测模块。
模型预训练使用来自LINCS的970,481,750个化合物-细胞-基因关联数据,涵盖39,321种化合物在90多种细胞系中的干预数据。微调阶段使用从GEO数据和文献收集的2,579,488个天然产物-细胞-基因对数据,将每个天然产物视为化合物集合。体外实验验证在不同细胞系和天然产物中进行,下游应用包括分子通路机制分析和药物重定位。
研究收集了CMap的单化合物干预转录组数据,并通过改进的CycleGAN增强处理,将特征维度从978维提升至23,614维(全基因组)。经清洗和预处理后,获得超过20,000种化合物在90多种细胞系中的基因差异表达数据,构建了970,481,750个化合物-细胞系-基因关联对。增强后的转录组数据在UMAP空间中显示良好的聚类和区分性。
集合嵌入模块由两个Deep Sets模型和一个Set Transformer组成,通过多头注意力块(MAB)、集合注意力块(SAB)、诱导集合注意力块(ISAB)和池化多头注意力(PMA)块实现深度表征。采用拼接和相加两种策略构建SETComp模型的Concat版本(约200M参数)和Add版本(约173M参数)。网格搜索优化模型参数和训练参数后,两个版本模型在10个周期内收敛。
预训练阶段,模型在预测单化合物关联时表现优异(AUC达0.948),但在预测上调/下调时表现更佳(AUC达0.96)。在小规模训练集上,深度学习模型优于传统机器学习模型(如KNN、LDA和DT)。
微调阶段,预处理了最多含406种化合物的复杂系统集合,并分析了GEO数据和文献中的复杂系统干预表达数据。发现复杂系统干预后的总表达水平与化合物数量无显著相关性(P=0.4331)。
网格搜索优化微调参数后,预训练加微调的模型性能显著提升,准确率达93.86%(Concat)和92.70%(Add),AUC达0.9888和0.9856,较基线机器学习模型准确率提升5.82%-27.59%,AUC提升7.83%-15.63%。与仅预训练或仅微调模型相比,预训练加微调模型表现最佳,表明置换不变性和注意力模块逐步提升模型性能。
随着微调训练集规模增加,模型性能持续提升。大规模预训练数据集加速模型收敛并提高准确率和AUC。在预测未见过的复杂系统时,模型准确率达82.75%和82.66%,较基线提升24.83%。模型输出值与实际转录组logFoldChange显著相关(相关系数0.6734-0.9226),显示定量预测潜力。
通过RNA测序验证模型预测,在A549细胞系中,黄芪下调预测准确率最高达88.65%,上调预测达86.25%;党参下调预测准确率81.51%,上调预测81.72%;肉桂下调预测准确率83.12%。阴性样本(无显著差异)预测准确率最高达94.01%。
模型预测分数与实际fold change显著正相关,且随阈值增加而增强(相关系数最高0.4665)。个体天然产物干预下,正则化系数在0.5788(黄芪)、0.5486(党参)和0.4425(肉桂)之间,表明模型具备定性及潜在定量预测能力。
结合SETComp预测、转录组数据和TCGA数据,发现GPX2、PRR13和APOC1等基因在LUAD和LUSC癌样本中高表达,且在三种天然产物干预下显著下调。GPX2涉及凋亡、免疫调节和氧化应激,在肺癌中具有临床意义。
基于模型预测值反映基因激活/抑制强度的特性,采用GSEA分析通路水平变化。预测黄芪、肉桂和党参在MCF-7和A549细胞系中的干预效应,构建调控分子网络。GSEA显示黄芪在MCF-7中通过p53信号通路抑制肿瘤增殖,在A549中通过凋亡信号通路促进凋亡;还通过FOXO信号通路抑制MCF-7增殖,通过Toll样受体信号通路改变A549免疫微环境。85%以上通路在转录组数据中显著富集(p<0.05),结果稳健性受阈值影响较小。
分析人参、西洋参、红参和肉桂等天然产物的预测结果,通过KEGG和DO富集分析潜在干预疾病。红参可能干预肝炎(DOID:1575, hsa05160, hsa05161)、II型糖尿病(hsa04930)、胰岛素抵抗(hsa04931)和高血糖(DOID:4195),得到临床试验NCT03775733和NCT01911663支持;西洋参可能影响高血压、多发性硬化症和呼吸道感染;肉桂干预糖尿病和胰岛素抵抗相关疾病;人参干预阿尔茨海默病、动脉粥样硬化、葡萄糖相关紊乱、肝功能问题和多发性硬化症。
精准医疗需求日益增长,单一药物干预不足,复杂系统(如天然产物)成为有前景的方向。尽管单化合物干预多组学数据丰富且深度学习模型众多,但复杂系统干预数据及预测模型稀缺。SETComp模型填补了这一空白,通过迁移学习和置换不变性技术,预训练和微调后实现高精度预测。
研究存在局限性,如未考虑复杂系统中化合物质量比例,且未实现定量预测。但集合嵌入模块通过注意力机制部分解决比例问题,预测输出与实际fold change的强相关性为未来定量预测模型提供基础。
未来研究将收集更多单细胞水平化合物干预数据(如Tahoe-100M数据集),结合现有1.8亿细胞系数据预训练生成模型,并通过动物实验单细胞测序数据微调,最终实现复杂系统干预后细胞特异性全基因组表达谱生成,为机制探索和药物重定位等场景提供更好预测基础。
收集LINCS的CMap转录组数据,使用cmapPy v4.0.1预处理,改进CycleGAN模型增强数据至23,614维。保留至少3次技术重复的化合物,注释PubChem数据库并获取SMILES结构。从HERB v2.0收集天然产物成分信息,标准化PubChem CID和结构。最终保留46,419种化合物,其中25,751种作为6,198种天然产物的成分。
化合物干预数据采用24小时最高浓度干预后的增强转录组数据计算基因表达模式;天然产物干预数据从GEO和文献收集,使用limma和DESeq2计算差异表达基因(DEGs)。基因表达模式分为上调(log2FoldChange>0, p<0.05)、下调(log2FoldChange<0, p<0.05)和无效应(p>0.05)。从CCLE和TCGA获取细胞系数据,从STRING获取基因互作和蛋白序列信息。最终构建970,481,750个化合物-细胞-基因对和2,579,488个天然产物-细胞-基因对。
化合物嵌入采用自监督预训练模型Infograph(基于ZINC 2M数据库训练,5隐藏层,300神经元)和PubChem指纹计算,生成1,181维特征向量(881维指纹+300维Infograph)。天然产物特征由成分特征集合构成。
基因嵌入采用Node2Vec(基于PPI网络,256维)和ProtFlash(基于蛋白序列,768维)。细胞系嵌入采用VAE模型训练于TCGA表达矩阵,损失函数为MSE损失和KL损失之和,网格搜索优化参数后生成64维嵌入。
核心模块包括集合嵌入模块(Deep Sets和Set Transformer)、注意力模块和预测模块(三层MLP)。Deep Sets提供置换不变性表征,Set Transformer通过MAB、SAB、ISAB和PMA块深化表征。Concat版本和Add版本分别采用拼接和相加策略整合表征。
MCF-7和A549细胞系培养于DMEM/RPMI-1640培养基,10% FBS和100 U/ml青霉素/链霉素。黄芪、肉桂和党参干预浓度为200 μg/mL,处理24小时后收集细胞,TRIzol提取RNA。质检合格后构建PE文库,Illumina Novaseq 6000/MGISEQ-T7平台测序。
机制探索采用GSEA分析(clusterProfiler v4.9.1),按NES分类通路激活/抑制。药物重定位基于软max分数≥0.7的基因,进行KEGG和DO富集分析,匹配临床试验证据。可视化使用gseaplot2()和ggalluvial v0.12.5。
研究支持来自2024中医药创新团队与人才支持计划(ZYYCXTD-D-202405)、国家自然科学基金(T2341008)和教育部学科突破试点项目(中医药防治多系统共病)。
作者声明无利益冲突。
S.L.构思和设计研究;B.W.开发算法概念并实施,起草初稿;P.Y.进行实验验证;B.W.、T.Z.和Q.L.参与数据收集和预处理。
生物通微信公众号
知名企业招聘