
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于多条件扩散Transformer的药物扰动转录组预测模型(PertDiT):推动精准医疗与药物发现的新范式
【字体: 大 中 小 】 时间:2025年09月23日 来源:Quantitative Biology 1.4
编辑推荐:
本研究提出一种创新的多条件扩散Transformer模型(PertDiT),通过整合预训练大语言模型的文本表征与创新的扰动融合模块,实现了基于药物文本信息的扰动转录组精准预测。该模型在转录组重建(R2)和基因表达变化预测(PCC(ln FC))方面显著优于现有方法(如PRnet和ChemCPA),为个性化医疗和药物发现提供了强大工具。
药物扰动转录组能够全面描绘药物作用机制,在个性化医疗和药物发现领域具有重要作用。现有高通量测序技术如sci-Plex3和L1000虽能实现大规模实验,但存在成本高、耗时长的局限性。因此,利用算法和公共数据集进行计算机模拟的扰动转录组预测成为更优选择。
本研究提出多条件扩散Transformer模型PertDiT,专门用于基于药物文本信息条件生成扰动转录组。该模型结合强大的Transformer架构与预训练大语言模型的文本表征,并采用创新的扰动和转录组融合模块。团队设计了两种网络结构:CrossDiT和CatCrossDiT,分别适用于药物发现和个性化医疗场景。
PertDiT采用多条件去噪扩散概率模型(DDPM)的训练和采样过程,利用预扰动条件cpre和扰动条件cpert控制扰动转录组x0的生成。创新性地提出基于文本嵌入的统一化学扰动表示方法:将简化分子线性输入系统(SMILES)通过预训练MolT5转换为文本描述,添加剂量提示后使用预训练Linkbert转换为文本嵌入。
模型的核心是多条件DDPM噪声预测器?θ(xt,t|cpre,cpert),包含三个适配器和多输入Transformer层:
时间步适配器(T-adapter):将t转换为正弦-余弦编码并通过多层感知机(MLP)处理
转录组适配器(Trans-adapter):处理xt和cpre并添加可学习基因表示作为特殊位置嵌入
扰动适配器(Pert-adapter):处理cpert并添加时间步嵌入
两种Transformer层采用不同的多条件融合策略:CrossDiT通过两个交叉注意力模块分别融合预扰动条件和扰动条件;CatCrossDiT通过拼接噪声数据并使用自注意力融合预扰动条件,随后使用交叉注意力融合扰动条件。
通过精心设计的10项综合指标和有效的数据拆分策略,研究团队验证了两种结构的有效性。
与最先进的PRnet和经典方法ChemCPA相比,PertDiT在所有拆分和指标上均表现更优。在新型Both_unseen分组中,两种方法表现相当,但CatCrossDiT因专注于转录组建模而在转录组重建方面表现更佳,CrossDiT因侧重于扰动融合而在预测扰动诱导变化方面更优。
研究还扩展了对器官特异性毒性谱的分析,将L1000数据集划分为肺、肾和胰腺三个器官特异性测试集。结果表明该方法在所有三种器官上都优于PRnet,展示了其在器官特异性扰动模式方面的强大泛化能力。
通过一系列模型变体的比较,验证了扰动表示、扰动融合模块和转录组融合模块都能提高模型的最终性能。
文本嵌入在未见药物上表现更好,其预测的转录变化更准确,表明基于文本的扰动建模比RDKit更有效。交叉注意力优于AdaLN,表明通过交叉注意力建模的文本嵌入保留了更全面的扰动信息。
剂量消融实验表明,即使没有剂量信息,该方法在未见细胞系和双重未见拆分中仍持续优于PRnet。
在转录组融合方面,比较了三种预扰动转录组融合策略:直接拼接(CatonlyCrossDiT)、拼接后自注意力(CatCrossDiT)和直接交叉注意力(CrossDiT)。自注意力的实施显著提高了整体预测效果。拼接和自注意力可以提高未见细胞系的转录组重建能力以及单样本指标。
差异表达基因(DEG)能更好地表征药物对转录组的影响。研究选择前100个样本量最大的药物的各25个上调和下调DEG,计算每个药物单个DEG的平均PCC(ln FC),发现该方法显著优于PRnet。
以抗癌药物拉帕替尼(Lapatinib)为例,该方法能有效预测不同细胞系的药物反应。例如上调基因变化在VAPC和HELA细胞系中更明显,而在HS578T和LNCAP等细胞系中反应较弱。以基因RNF167为例,模型准确预测该基因在HT29、MCF7、A549和PHH细胞系中经拉帕替尼扰动后上调最显著。而通常上调的DEG RB1被准确预测在ASC、NEU、NPC和PHH细胞系中下调。
尽管PertDiT模型表现出色,仍有几个方面需要进一步探索和改进。为提高模型推理速度,考虑采用EDM框架和一致性模型或其他优化采样方法。
该框架本质上可扩展以整合多样化的文本特征并适应更广泛的扰动建模场景。未来工作将整合更丰富的药物元数据,如治疗适应症、机制注释和靶点谱,以增强表征能力。同时,该模型有潜力扩展到更复杂的扰动类型,包括基因敲除和蛋白质分子扰动。
提高模型可解释性对于解码药物与基因表达谱之间的关系同样关键。未来将通过模块化药物文本描述结合简化网络设计或基于掩码的消融实验,系统解析不同元数据组件如何影响扰动转录组预测。
关于当前基因数量的限制,计划引入高效的基础模型如flash attention和Mamba,以增加输入基因数量,提高模型效率和性能。
考虑到单细胞扰动数据的日益可用性,模型将在未来研究中扩展到单细胞水平。采用自编码器结合扩散的方法有望解决单细胞数据中的高丢失问题。
研究使用L1000数据集作为转录扰动响应的综合存储库,包含超过100万个批量RNA-seq观测值和978个标志基因。预处理步骤与PRnet论文一致,最终获得883,269个观测值,涵盖17,202种化合物和82个细胞系。
采用两种数据拆分模式:一种与PRnet一致,包括三轮五折交叉验证;另一种分别拆分SMILES和细胞系,生成训练集、验证集和三个测试集:Drug_unseen、Cell_line_unseen和Both_unseen。
所有数据处理通过Python包Scanpy完成,对所有基因表达谱进行对数标准化。模型输入包括配对对照转录组(作为预扰动状态)和化学扰动表示,输出为预测的扰动后转录组。
设计了10项衡量指标来全面评估模型预测性能,这些指标是两种度量标准和五种分组策略的组合。两种度量标准是预测转录组与真实转录组之间的决定系数(R2),以及预测转录组相对于对照的真实转录组的自然对数折叠变化的Pearson相关系数(PCC(ln FC))。五种分组策略从粗到细包括:相同药物(drug)、相同药物和剂量(drug_dose)、相同药物和相同细胞(cov_drug)、相同药物、细胞和剂量(cov_drug_dose)以及无分组(per_sample)。
多条件扩散模型PertDiT用学习到的模型分布pθ(x0|cpre,cpert)估计扰动转录组的真实条件分布q(x0|cpre,cpert)。设噪声方差计划,记xt为在真实数据x0上添加噪声t次产生的噪声数据。
?θ是PertDiT的可学习噪声预测器,由条件控制的反向过程。训练期间随机采样噪声xt并通过最小化损失函数训练?θ。生成时,采样xT~N(0,I)并按照反向过程迭代去噪T次以获得预测的x0。
PertDiT由适配器和Transformer层两部分组成。提出两种Transformer层架构:CrossDiT和CatCrossDiT。
适配器都是单层线性层,旨在将不同维度的输入映射到相同维度以便Transformer层处理。具体通过三种类型的线性层实现:Pert-adapter、trans-adapter和T-adapter。
经适配器处理后,xt、cpre和cpert都需要添加到扩展的时间嵌入t中。此外,转录组输入xt和cpre还需要在输入Transformer层之前添加可学习的基因表示。
Transformer层均采用预归一化残差结构。CrossDiT包含两个交叉注意力模块和一个由两层MLP实现的前馈模块。CatCrossDiT包含一个自注意力模块、一个用于融合cpert和xt的交叉注意力模块以及与CrossDiT相同的前馈模块。
还额外设计了AdaDiT来比较扰动建模效果。AdaDiT与CatCrossDiT的唯一区别是将交叉注意力层替换为更适合向量输入的自适应层归一化。每层AdaDiT有两组(α,β,γ),尺度&移位操作位于自注意力和前馈模块之前,而配对门操作位于自注意力和前馈模块之后。
生物通微信公众号
知名企业招聘