基于药物分子效应相似性的药物重定位新策略:利用LINCS L1000数据挖掘疾病治疗新方案

【字体: 时间:2025年10月02日 来源:Human Genomics 4.3

编辑推荐:

  为解决利用大规模基因表达数据(如LINCS L1000)进行药物重定位时可靠性不足和最佳方法不明确的问题,研究人员开展了一项利用药物诱导基因表达相似性预测新适应症的研究。研究发现,共享适应症的药物在基因表达上具有更高相似性,且Spearman相关性优于常用Connectivity Score;最终构建的集成模型能有效预测独立临床试验中的新药物用途(AUC=0.708)。该研究为LINCS数据在药物重定位中的应用提供了新方法和可解释依据,具有重要临床转化价值。

  
在当今医疗创新领域,寻找现有药物的新治疗用途(即药物重定位)已成为加速临床进展的重要策略。随着大规模分子效应数据的爆发式增长,特别是LINCS L1000 Connectivity Map项目提供了数千种化合物(包括已批准药物)对基因表达影响的详细图谱,数据驱动的药物重定位展现出巨大潜力。然而,这一领域仍面临严峻挑战:近期研究对LINCS数据的可靠性提出质疑,发现药物诱导的基因表达在不同数据集间缺乏一致性,尤其当细胞对药物的转录反应较弱时;同时,如何选择合适的细胞系来测试药物反应,以及如何整合不同细胞系的结果,仍缺乏明确指导。这些因素严重限制了LINCS数据在药物重定位中的有效应用。
为了突破这些瓶颈,研究人员在《Human Genomics》上发表了一项创新研究,提出了一种不依赖于疾病基因表达谱的新策略。该方法的核心理念是:能够治疗相同疾病的药物,可能引发相似的基因表达变化。通过利用已知药物-适应症关联,研究人员构建了预测模型,不仅提出了可信的新治疗候选方案,还为预测提供了可解释的生物学依据。
研究采用了几个关键技术方法:首先从LINCS L1000 Level 5数据获取药物基因签名,使用Spearman相关性和Connectivity Score评估药物对相似性;利用Drug Repurposing Hub的已知适应症数据作为训练集;通过Transcriptional Activity Score(TAS)过滤弱转录反应药物;建立基于逻辑回归的预测模型,并在三种癌细胞系(MCF7、A375、PC3)上分别训练;最后整合多细胞系预测结果形成加权集成模型。独立验证数据来自Aggregate Analysis of Clinical Trials(AACT)数据库,包含ClinicalTrials.gov注册临床试验中的新药物用途,经UMLS和DrugBank标准化处理。
药物已知共享临床和生物学效应诱导表达变化相似
研究人员通过系统分析发现,在MCF7细胞系中,共享适应症的药物对在基因表达变化上表现出显著更高的相似性。使用Spearman相关性计算时,共享适应症药物对的相似性显著高于无共享适应症药物对(p=7.7e-38),而常用的Connectivity Score虽然也显示显著差异,但区分能力较弱(p=5.2e-6)。这一发现在A375和PC3细胞系中得到验证,表明Spearman相关性更能捕捉药物间的生物学相似性。进一步分析证实,高Spearman相关的药物对更可能共享基因靶点和解剖治疗化学(ATC)分类,说明该方法捕获的是有生物学意义的相似性。
转录强度影响基因表达预测效用
研究人员考察了转录活性评分(TAS)对预测性能的影响。TAS量化了药物诱导转录反应的强度和稳健性,TAS值高于0.2表示强转录反应。研究发现,随着TAS阈值提高,Spearman相关性区分共享适应症药物对的能力增强(AUC从0.69升至0.80)。然而,这种提升伴随着可用药物数量的减少——在TAS阈值0.5时,仅10%的药物保留。这一发现揭示了数据质量与覆盖范围之间的权衡关系,为后续模型构建提供了重要指导。
集成模型推广预测临床试验中的药物适应症
研究人员为三种细胞系分别建立了逻辑回归模型,预测药物治疗特定适应症的概率,输入特征为感兴趣药物与已知治疗药物间的最高Spearman相关性。交叉验证显示训练集与验证集AUC相似,表明模型未过拟合。最终构建的集成模型通过加权平均整合多细胞系预测结果,在Drug Repurposing Hub数据上达到AUC=0.854。
为评估模型泛化能力,研究人员从AACT数据库整理了独立临床试验数据集,包含1,419个未在训练集中出现的新药物-适应症对。所有单个细胞系模型AUC均高于0.70,集成模型性能与最佳单细胞系模型相当。对于所有19,562个在至少一个细胞系中测试的药物-适应症对,集成模型预测AUC为0.708,证明了该方法对新药物用途的预测能力。
进一步探索TAS的影响发现,将TAS作为特征加入模型略微提高了预测性能(AUC从0.708升至0.712),但过滤高TAS药物并未显著改善对实验性药物用途的预测,这可能是因为过滤导致数据量减少。
基于文献的方法评价
研究人员对模型排名前20的候选药物-适应症对进行了文献验证,发现17个(85%)有体外实验、临床实验数据或与密切相关的支持,显著高于随机选择的药物-适应症对(4/20,20%),优势比为4.25。这一结果进一步支持了模型预测的可靠性。
研究结论强调,这种基于药物相似性的方法为药物重定位提供了简单而强大的新策略,避免了依赖疾病基因表达谱的挑战。研究表明,Spearman相关性比常用的Connectivity Score更能捕捉药物间的生物学相似性,而TAS是构建预测模型时需要考虑的重要因素。研究人员开发了交互式网络工具(https://bsultan.shinyapps.io/web-app),供研究者浏览170种常见适应症的推荐药物,每个预测都提供了可解释的生物学依据——指出与哪个已知治疗药物最相似。
该研究的重要意义在于:首先,为LINCS L1000数据在药物重定位中的可靠性提供了正面证据;其次,开发了一种不依赖于疾病基因表达谱的新方法,扩展了可研究疾病范围;最后,提供的可解释预测和公开可用的资源将加速后续实验验证和临床转化。尽管预测准确性中等(AUC≈0.70),但模型提出的多个新药物用途具有高度合理性,如奥拉帕尼(olaparib)治疗肾细胞癌、匹伐他汀(pitavastatin)治疗心肌梗死和卒中等,这些预测均得到文献支持。
研究也承认了一些局限性:当前方法仅利用与单个最相似药物的相关性,未充分利用所有已知治疗药物的信息;固定权重集成模型可能不如自适应权重模型灵活;Spearman相关性并非完美区分指标,因为机制相似的药物可能产生不同的表达扰动效应。未来工作可整合基于疾病特征的方法,开发更复杂的模型,进一步推动LINCS Connectivity Map在药物重定位中的应用。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号