GETgene-AI:整合网络药理学与人工智能的癌症靶点发现框架及其在胰腺癌中的应用
【字体:
大
中
小
】
时间:2025年09月30日
来源:Frontiers in Systems Biology 2.3
编辑推荐:
本综述系统介绍了GETgene-AI框架,该框架整合了突变频率(G List)、差异表达(E List)和已知靶点(T List)三大数据流,通过生物实体扩展与排序引擎(BEERE)和GPT-4o自动化文献分析,实现了对胰腺癌(PDAC)等恶性肿瘤的可操作靶点的多维度、智能化优先排序。该研究为克服传统靶点发现方法中的高假阳性率、样本偏差和生物学背景简化等问题提供了创新性解决方案。
传统化疗药物通过非特异性靶向快速分裂细胞发挥作用,但其疗效正面临靶向治疗的挑战。靶向治疗能够特异性干扰调控细胞存活和凋亡的分子通路,然而药物靶点发现仍面临三大关键限制:手工筛选文献和静态生物医学数据库难以应对现代多组学数据的复杂性;传统网络优先排序方法基于蛋白相互作用网络(PPI)中心性,但忽视组织特异性基因组特征;依赖单一指标(如突变频率或差异表达倍数变化)会因任意阈值和样本偏差引入变异性。
计算科学的进步通过整合多组学数据、网络优先排序和人工智能驱动的文献综述来应对这些挑战。多组学数据整合将突变置于组织特异性表达模式背景中,而网络优先排序通过将基因映射到功能相关通路来优化排序。差异基因表达是识别条件间(如癌组织与正常组织)显著改变基因的重要方法,GEO2R等工具利用倍数变化来排名基因,但任意选择倍数变化阈值可能引入变异性。频率优先排序方法关注疾病背景下高突变率的基因,但容易受样本选择偏差影响。网络中心性优先排序作为补充策略出现,利用基因在生物网络中的连接性,通过扩展基因列表和加强疾病关联指标提供整体框架。
同时,人工智能驱动的文献综述(如GPT-4)自动化合成临床前和临床证据,识别具有机制和转化相关性的靶点。通过结合这些方法,可以减轻单一指标或碎片化数据集固有的偏差,产生具有机制、功能和转化相关性的优先靶点。
GETgene-AI框架采用三层策略——基因列表(G List)、表达列表(E List)和靶点列表(T List)——将生物学背景整合到基因优先排序中。G列表识别具有高突变频率、功能意义(如通过KEGG进行通路富集)和基因型-表型关联的基因。E列表聚焦于在胰腺导管腺癌(PDAC)与正常组织相比显示显著差异表达的基因,而T列表包含在临床试验、专利或批准疗法中注释为药物靶点的基因。
初始基因列表生成后,第二步涉及使用BEERE网络排序工具对这些列表进行优先排序和扩展。BEERE采用初始排序算法和两种迭代排序算法——PageRank和蚁群算法,通过从HAPPI 2.0数据库中的蛋白-蛋白相互作用网络合并近邻交互来扩展基因列表。
GET、GT和E列表独立扩展,以在BEERE优先排序阶段保留模态特异性信号。每个列表经过相同的精炼工作流程,通过BEERE的网络传播和统计排序算法基于网络中心性和显著性分数对基因进行优先排序。为防止过度扩展并保持对高置信度候选基因的关注,经验性地将每个列表过滤为保留每次优先排序循环后的前500个基因。该迭代过程重复三次,以最佳地保持每个列表的独特生物学相关性。
独立扩展的GET、GT和E列表(每个通过三次BEERE网络扩展迭代精炼)被合并为初始GET列表,然后进行最终的基于BEERE的优先排序以生成最终GET列表。
GPT-4o通过自定义GPTo接口对胰腺癌基因和治疗的摘要进行文献评估。模型配置有特定指令,基于评分系统对基因进行排名,最高分400分,分布在四个类别:在胰腺癌中的功能意义、研究普及度、靶向或抑制基因时的治疗效果以及蛋白结构。每个类别分配100分,所得指标称为GPT-4分数。
为了评估优先排序基因的临床相关性,通过Clinicaltrials.gov搜索“胰腺癌”并提取所有在胰腺癌主动或已完成干预试验中列出的药物,使用DrugBank的“靶点”部分识别这些药物对应的靶基因,得到357种药物靶向253个独特基因。
在GET列表优先排序和临床试验基因识别后,用功能基因组数据对这些基因进行注释。评估了突变频率和拷贝数变异(CNA),并从CBioPortal获取突变和CNA数据。通过ProteinAtlas提供的“RNA表达分数”进行组织特异性表达注释。
为了统一这些标准,开发了加权RP分数,整合突变频率、拷贝数变异(CNA)、组织表达、GET列表分数(BEERE优先排序分数)、E列表分数、GT列表分数和临床试验活性。模态权重通过每个模态特异性排序与两个独立治疗相关性基准之间的Spearman等级相关性进行校准。
在迭代排序过程中,缺乏癌症功能相关性的基因被系统性地降低优先级。最终候选集定义为RP分数排名前250的基因。
PIK3CA在列表中排名最高。它编码PI3K酶,调控关键细胞过程如生长、代谢、增殖和凋亡。PIK3CA还调节下游效应器,包括AKT和mTOR,临床前研究表明该基因的突变使癌症对双重PI3K/mTOR抑制剂敏感。值得注意的是,PIK3CA缺失肿瘤在体外表现出对T细胞监视的易感性增强,而其抑制在胰腺癌模型中启动肿瘤发生。
MYC排名第二,因其在GET列表中的最高分数,反映了其在500个最表达、临床相关和频繁突变基因中的网络中心性。c-MYC过表达是侵袭性胰腺癌的标志,它结合致癌靶点的启动子区域。尽管其关键调控作用,MYC的复杂蛋白结构带来治疗挑战,导致GT列表分数较低。小分子抑制剂的最新进展显示出临床前潜力。
SRC在列表中排名第三,因其在GET列表和表达列表模态中的高分。在胰腺癌中抑制SRC已被证明在体外和体内研究中逆转对细胞焦亡的化疗耐药性。异常SRC活性促进肿瘤发生,并常与胰腺导管腺癌(PDAC)不良预后相关。几种靶向SRC的疗法目前正处于临床研究阶段。
EGFR排名第四,归因于其高GET列表和表达列表分数。EGFR还与肿瘤发生相关,特别是在肺癌和乳腺癌中。抗EGFR药物已显示出显著的临床潜力,尽管存在相关不良反应。
KRAS在列表中排名第12,尽管其在胰腺癌研究中突出,有超过4,545篇PubMed文章关于KRAS在胰腺癌中的突变。其较低排名主要由于低表达分数。KRAS癌基因在胰腺肿瘤的启动和维持中起关键作用。KRAS突变存在于超过90%的PDAC病例中,但治疗抑制仍然极具挑战性,有效的抑制剂直到最近才发现。
CDK1排名第五,主要因其在GET和表达列表中的高分。CDK1与预后强烈相关,在胰腺癌组织以及响应吉西他滨(一种批准的胰腺癌药物)时高度表达。此外,抑制CDK1以及CDK2和CDK5已被证明可以克服IFN-γ触发的胰腺肿瘤免疫中获得性耐药。
PRKCA排名第七。它编码蛋白激酶C,并在多种癌症中突变。PRKCA的高排名归因于其强大的GET和表达列表分数,以及极低的器官表达分数。它与蛋白翻译启动通路的激活强烈相关,并且是脊索样胶质瘤的标志性突变。PRKCA还通过过氧化物酶体增殖物激活受体(PPAR)信号通路促进对胰腺癌的易感性,该通路在胰腺癌发展和进展中起关键作用。抑制PRKCA已在晚期非小细胞肺癌(NSCLC)患者中证明抗肿瘤活性。
TNF在列表中排名第八。肿瘤坏死因子(TNF)上调与胰腺癌中的侵袭和免疫调节相关。TNF突变的巨噬细胞也通过谱系重编程促进侵袭性癌症行为。
LCK排名第九。该基因在肿瘤细胞中表达,并在T细胞发育中起关键作用。高LCK蛋白表达与癌症患者生存改善相关。尽管具有生物学相关性,截至2024年5月,LCK仅有四篇PubMed出版物讨论其在胰腺癌中的作用。其被识别为高优先级靶点展示了GETgene-AI优先排序具有强大生物学相关性但文献关注有限的基因的能力。
ITGA4排名第15。它具有极低的器官表达分数,并且仅有四篇PubMed出版物讨论其在胰腺癌中的作用。ITGA4具有作为患者生存独立预后指标的潜力,并与PI3K/AKT通路相关。其被识别为高优先级靶点进一步突出了GETgene-AI优先排序具有强大生物学相关性尽管文献关注有限的基因的能力。
KCNA排名第34。值得注意的是,没有PubMed出版物描述其与胰腺癌的关系,并且只有三篇出版物提到其在癌症中的作用。KCNA被识别为高优先级靶点强调了GETgene-AI优先排序具有强大生物学相关性但文献关注极少的基因的能力。KCNA在胃癌和肺癌中表现出差异高表达,并且与浸润免疫细胞和存活率正相关。
将GETgene-AI与另外两个框架进行基准测试:一个专注于差异表达分析,另一个基于网络基因优先排序。对于差异表达比较,选择了GEO2R,利用GSE28735数据集,该数据集被整合到GET列表的“表达列表”组件中。基因根据它们的对数倍数变化(log-fc)进行排名,代表肿瘤和非肿瘤组之间的基因表达差异。在GEO2R列表中,排名最高的基因是PNLIPRP1和PNLIPRP2,两者编码对消化和脂肪吸收至关重要的胰腺脂肪酶相关蛋白,但这些基因不被认为是胰腺癌的可行靶点。排名第三的基因IAPP(胰岛淀粉样多肽)已被证明缺乏肿瘤抑制功能,并且IAPP信号丢失与胰腺癌无关。在GEO2R识别的前50个基因中,有30个被实验验证与胰腺癌相关。相比之下,GETgene-AI在其前50个中优先排序了49个经过实验验证的靶点,相比GEO2R提高了38%。GEO2R的局限性,包括缺乏突变频率分析、功能影响评估、基于网络的分析和不良反应评估,阻碍了其在药物靶点发现中的效用。相比之下,GETgene-AI利用统计过滤并整合基因组信息,显著提高了基因优先排序的效率和质量。
对于基于网络的比较,使用了STRING,一个整合蛋白-蛋白相互作用数据的数据库,特别关注KEGG通路hsa0512。基因基于节点度进行排名,节点度是衡量蛋白质在网络内相互作用数量的指标。STRING列表中排名最高的基因是AKT1,一种已知刺激细胞生长和增殖的蛋白激酶。然而,AKT1已显示出通过将其代谢活性从糖酵解转变为线粒体呼吸来抵抗抑制。此外,在一个包含19,784名各种肿瘤患者的队列中,其突变频率仅为1%。由于其低突变频率和抑制相关的挑战,AKT1被GETgene-AI排名第33。在STRING优先排序的前50个基因中,有46个被实验验证与胰腺癌相关,而GETgene-AI在其前50个中识别出49个经过实验验证的基因,相比STRING提高了6%。STRING的局限性,例如无法考虑突变频率和药物靶点识别中的其他关键因素,导致其关注范围较窄,仅优先排序了81个靶点,而GETgene-AI提供了更全面的分析。
将GETgene-AI与GEO2R和STRING比较,我们的框架在每列表前50个基因的实验验证率上相比GEO2R提高了38%,相比STRING提高了6%。
GETgene-AI还与OpenTarget(一个整合性AI优先排序平台)进行了比较。我们将GETgene-AI的排名与OpenTargets为胰腺癌生成的排名进行了比较,重点关注每个工具的前15个基因。虽然在高置信度驱动因子(如KRAS、TP53、SMAD4、BRCA2)上存在重叠,但出现了一些关键差异,凸显了GETgene-AI多模态整合的价值。
OpenTargets将POLE和POLD1等基因排名很高,尽管它们在胰腺癌数据集中的突变频率很低(POLE在一个TCGA队列中缺失;POLD1在UTSW CNA和突变频率中<1%)。GETgene-AI由于缺乏突变富集和有限的胰腺特异性证据,降低了这些基因的优先级,避免了基于文献或仅通路关联的膨胀。
相反,GETgene-AI优先排序了如MYC、SRC、EGFR和CDK1等基因,这些基因在胰腺癌中具有强大的差异表达和药物靶点相关性,但缺席了OpenTargets的顶级列表。
这些差异表明OpenTargets可能过度加权广义关联,而GETgene-AI整合了癌症类型特异性的基因组、转录组和治疗数据,导致排名更符合胰腺癌的生物学和临床背景。
GPT-4o用于对我们的基因列表进行全面的文献评估。虽然其输出未纳入最终加权分数,但GPT-4o分数与加权分数以及所有三个GET列表分数显示出强烈的相关性。值得注意的是,GPT-4o优先排序了如MYC和SRC等基因,反映了它们在科学文献中充分记录的突出地位。这补充了GETgene-AI依赖网络突变分析进行基因优先排序的方法。为了最小化GPT-4o评分过程中假阳性的包含,我们指示GPT-4o直接引用其内部数据库中的文章。虽然GPT-4o相比手动方法并未表现出更高的实验验证率,但它显著将文献综述所需时间减少了80%。所有引用的文章随后都经过手动验证以确保准确性。
RP-LIT分数和GPT-4o分数显示出高度相关性,每个基因的排名极其相似。基于Spearman相关性分析,GPT-4o分数(满分400)与加权分数的相关系数为+0.457,表明存在统计学上显著的关系。
假阳性是大规模计算分析中固有的风险。GETgene-AI框架通过迭代精炼和系统排除缺乏功能或实验支持的基因来应对这一挑战。未来的验证工作将侧重于通过靶向实验研究进一步优化这些排名。此外,生成式AI提供的文献评估预计将随着AI技术的进步和我们的模型在更多实验数据上训练而改进,从而最小化生成输出中的不准确或“幻觉”。
为了减轻假阳性,缺乏癌症功能相关性的基因被系统性地排除。例如,由于算法伪影排名很高但缺乏实验验证或文献支持的基因被降低优先级。例子包括ITGA4和PRKCB,两者都有少于10篇PubMed文章讨论它们在胰腺癌中的作用。由于它们在GET、GT和表达列表中的低分,这些基因的排名低于许多公认的靶点,这些列表在RP分数计算过程中优先排序具有强大实验或文献支持的靶点。
这项研究有几个局限性。首先,GETgene-AI识别出的最高排名靶点需要进一步的实验验证,这是确认其生物学和治疗相关性的关键下一步。其次,对公开可用数据集的依赖可能由于不完整或不一致的注释而引入偏差。这些局限性突出了需要进一步实验验证和纳入更全面数据集以增强框架准确性和可靠性的必要性。
虽然当前研究聚焦于胰腺癌,但GETgene-AI框架可以轻松适应其他癌症或疾病,只要能够获取类似的基因组和临床数据资源。未来的研究将通过采用本工作中描述的系统过程探索其在乳腺癌和肺癌中的应用。GETgene-AI框架整合了文献综述、大规模测序数据和网络中心性分数,为药物靶点优先排序提供了全面方法。此外,其依赖计算方法进行优先排序和消除统计上不显著的数据确保框架既可扩展又高效,使其适用于生物医学研究中更广泛的应用。
通过将GETgene-AI应用于胰腺癌,我们识别了几个有前景的药物靶点,包括PIK3CA、PRKCA、LCK、MAPK8、ITGA4、PRKCB和KCNA1,值得进一步研究。这些靶点显示出强大的胰腺癌特异性基因组和转录组证据、PPI分析中的高网络中心性,并且尽管在我们的分析中具有生物学相关性,但在胰腺癌文献中并未被广泛报道。
GETgene-AI的药物靶点优先排序方法整合了文献综述、大规模测序数据、基于网络的中心性评分以及通过器官表达分数对潜在不良反应的评估。这种多方面的实施为药物靶点优先排序提供了一个可扩展且全面的框架,可以轻松适应具有类似数据可用性的其他癌症。此外,GETgene-AI系统性地降低低突变相关性基因优先级的能力突出了其在有效缩小可操作和生物学相关靶点方面的优越性。用于GET列表编译和优先排序的截止值的轻微变化并未导致最终GETgene-AI基因列表的最终排名或分数的显著变化。
与最近主要依赖AI驱动网络分析的方法(例如,识别SRC作为胰腺癌治疗靶点的AI驱动网络生物学管道)相比,GETgene-AI提供了一个更自动化和模块化的框架。我们的方法不仅评估蛋白-蛋白相互作用网络,还整合了组织特异性基因表达和突变频率分析,并通过不同的G、E和T列表在合并前整合这些模态。这使得基于基因组、转录组和治疗证据的多维优先排序成为可能。在未来的扩展中,GETgene-AI的模块化性质允许轻松纳入额外的评估模块——例如差异组织分析、基于基序的突变富集或表观遗传调控分数——每个模块在自己的列表中独立处理,然后通过我们的加权RP分数整合。这种设计确保了适应性,并能够无缝扩展框架以适应数据领域演变中的新模态。
GPT-4o通过自动化科学摘要的综述和优先排序,显著提高了基于文献的排序效率。这种方法将文献综述的效率提高了80%以上。然而,固有挑战,如幻觉风险,需要手动验证以确保结果的准确性。虽然GPT-4o提供了重要价值,但其融入研究流程应谨慎处理,并实施保障措施以减轻潜在错误。此外,未来在更多实验数据上训练GPT-4o将进一步提高其在优先排序任务中的准确性和可靠性。
虽然当前研究聚焦于癌症应用,但未来的研究将扩展GETgene-AI框架的范围。我们计划验证其在其他癌症类型(如乳腺癌和肺癌)中的效用,并探索其在非癌症疾病背景下的适用性,包括神经退行性疾病如阿尔茨海默病和帕金森病。通过将计算方法与大规模基因组数据整合,GETgene-AI框架解决了药物发现中的关键空白,加速了可操作靶点的识别,并推进了个性化治疗策略的开发。
未来的工作将优先对最高排名靶点(如PIK3CA和PRKCA)进行实验验证,使用CRISPR介导的敲除在胰腺癌细胞系中进行。随后的体外药物反应测定将评估这些靶点的治疗潜力。此外,我们旨在通过纳入多组学数据集(例如蛋白质组学、代谢组学)和通过改进的器官表达分析增强其预测不良反应的能力来精炼框架。
GET框架代表了计算药物发现领域的重大进步,它整合了基于网络的优先排序与机器学习,以高效地优先排序可操作的治疗靶点。通过我们在胰腺癌的案例研究突出的基因,如PRKCA、LCK、ITGA4和PRKCB,是需要进一步探索的新靶点。虽然这项研究聚焦于胰腺癌,但GETgene-AI框架可适应其他癌症和疾病,为靶点发现提供模块化和多功能的方法。GPT4o提高了基于文献的排序的效率和准确性,减少了手动工作量,并与基于网络的排序良好对齐。然而,其对手动验证的依赖强调了需要谨慎融入自动化流程。通过精炼靶点发现方法,GETgene-AI框架为个性化治疗策略和加速肿瘤学转化研究铺平了道路。未来的工作将专注于将框架扩展到其他癌症,改进排序指标,并整合多组学数据集以增强其预测能力。GETgene-AI的未来迭代旨在整合多组学数据集,如单细胞RNA测序和代谢组学,以捕捉更大的生物学复杂性。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号