-
生物通官微
陪你抓住生命科技
跳动的脉搏
Precious2GPT:生成多组学、多物种、多组织合成生物学数据的多组学转换器和条件扩散
【字体: 大 中 小 】 时间:2024年08月15日 来源:AAAS
编辑推荐:
Insilico Medicine的科学家们推出了Precious2GPT,这是一种创新的多模式架构,集成了预训练变压器和条件扩散,用于生成和预测多组学、多物种和多组织样本数据。这项开创性的研究表明,Precious2GPT能够提供高质量的生物数据,模拟现实世界的条件,以支持生物机制和衰老过程的研究,增强对从出生到死亡的基本生命生物学的理解。
PreciousGPT系列是开创性的建筑,旨在了解生命从出生到死亡的生物机制和衰老过程
Precious2GPT扩散变压器架构发表于Nature npj Aging
Precious2GPT集成了预训练变压器和条件扩散模型,用于生成多组学,多物种和多组织数据,用于药物发现和衰老研究
Precious3GPT正在社区验证开源过程中,可以在discord上访问
Insilico Medicine的科学家们推出了Precious2GPT,这是一种创新的多模式架构,集成了预训练变压器和条件扩散,用于生成和预测多组学、多物种和多组织样本数据。这项开创性的研究发表在Nature npj aging上,展示了Precious2GPT能够提供高质量的生物数据,模拟现实世界的条件,支持生物机制和衰老过程的研究,增强对从出生到死亡的基本生命生物学的理解。
组学中的合成数据生成是训练和评估基因组分析工具、控制差异表达和探索数据架构的重要工具。由于生物数据固有的复杂性和可变性,传统的方法往往不足。Precious2GPT通过整合条件扩散(CDiffusion)和仅解码的多组学预训练转换器(MoPT)模型解决了这些挑战,这些模型训练了基因表达和DNA甲基化数据。这种新颖的方法不仅优于现有的模型,如条件生成对抗网络(cgan),而且在生成捕获组织和年龄特定信息的代表性合成数据方面也表现出色。
人工智能工作由Insilico在蒙特利尔的Insilico medical Canada和阿布扎比的Insilico Medicine Middle East下的团队进行,该模型的合成数据生成和其他功能的验证由世界各地的多个团队进行。
“Precious2GPT代表了多组学研究合成数据生成的重大进步,”该研究的合著者Frank Pun博士说。“该模型产生准确的组学数据,为推进我们对复杂生物现象的理解和开发新的治疗策略提供了巨大的潜力。”
Insilico的研究团队采用了一种混合方法来构建Precious2GPT。该过程开始于CDiffusion模型生成一个初始数据集,该数据集基于基因表达网络模拟基因表达水平。这个网络通过整合基因之间的依赖性来确保生物学上合理的基因表达模式。MoPT模型然后评估每个基因生成的质量,计算一个质量分数,反映合成数据与现实世界概况之间的相似性。通过使用特征加权线性叠加(FWLS)结合这些模型,该团队实现了平衡和高质量的合成数据生成。
验证研究结果是有希望的。使用生成的数据,Precious2GPT在年龄预测精度方面表现出优异的性能,甚至可以生成超过120岁的数据。这种能力对老龄化研究尤其有价值,因为纵向生物学数据往往很少。此外,通过UMAP降维验证了该模型生成组织特异性数据的能力,显示出与真实标签的高度一致性。
在结直肠癌病例研究中,Precious2GPT展示了其在识别基因特征和治疗靶点方面的潜力。通过生成结直肠癌细胞系的对照样本,该模型进行了荟萃分析,揭示了与已知结直肠癌病理密切相关的显著基因表达特征。这突出了该模型在生物信息学分析和目标发现中的实用性。
Insilico在生成人工智能和衰老研究方面都处于领先地位,并于2014年开始发表利用先进生物信息学的衰老生物标志物研究。后来,该公司在人类“多组学”纵向数据上训练深度神经网络(dnn),并对其进行疾病再训练,以开发端到端的制药公司。用于目标发现、药物设计和临床试验预测的人工智能平台。
在2022年5月举行的戈登系统老化研究会议(GRC)上,Insilico Medicine的创始人兼首席执行官Alex Zhavoronkov首次提出了用于老化研究的多模态变压器的概念。随后,为了探索多模态变压器和扩散模型在纵向多组学学习和身体世界模型开发方面的潜力,Insilico开始研究PreciousGPT系列。在Precious2GPT之前,Insilico于2023年6月发布了Precious1GPT,这是一种使用甲基化和转录组学数据进行衰老生物标志物开发和靶标发现的双变压器模型。
“我们正在结合变形和扩散模型,并使用其他机器学习技术来构建模型,这些模型可以及时了解基本的生物变化,同时了解如何使用不同的小分子方法、生物制剂、食物和许多其他修改来影响这种生物学,这些修改可以调节不同组织水平上的不同生物途径。Insilico Medicine的创始人兼首席执行官、该研究的通讯作者亚历克斯·扎沃龙科夫博士说。“我们开源了珍贵的gpt系列,希望能团结世界各地的研究人员,和平地工作,为地球上的每个人延长健康、富有成效和可持续的生活。”
Precious2GPT的意义超出了衰老研究。该模型能够生成高精度和特异性的合成数据,为研究各种生物过程和疾病开辟了新的途径。Insilico的科学家计划进一步将Precious2GPT的应用扩展到其他生物信息学任务,包括生存分析、跨模态预测和疾病特异性组学生成。
关于Insilico Medicine
临床阶段端到端生成人工智能(AI)驱动的药物开发公司Insilico Medicine正在利用下一代人工智能系统将生物学、化学、临床试验分析联系起来。该公司开发了人工智能平台,利用深度生成模型、强化学习、变压器和其他现代机器学习技术来发现新的目标,并生成具有所需特性的新分子结构。Insilico Medicine正在开发突破性的解决方案,以发现和开发针对癌症、纤维化、免疫、中枢神经系统疾病、传染病、自身免疫性疾病和衰老相关疾病的创新药物。
网站:www.insilico.com
知名企业招聘