-
生物通官微
陪你抓住生命科技
跳动的脉搏
Nach0:一站式化学和生物医学任务LLM转换器
【字体: 大 中 小 】 时间:2024年05月21日 来源:AAAS
编辑推荐:
在一篇新论文中,来自临床阶段人工智能(AI)驱动的药物开发公司Insilico Medicine(“Insilico”)的研究人员与NVIDIA合作,提出了一种新的大型语言模型(LLM)转换器,用于解决生物和化学任务,称为nach0。
在一篇新论文中,来自临床阶段人工智能(AI)驱动的药物开发公司Insilico Medicine(“Insilico”)的研究人员与NVIDIA合作,提出了一种新的大型语言模型(LLM)转换器,用于解决生物和化学任务,称为nach0。多领域和多任务LLM在不同的任务集上进行训练,自然语言理解,合成路线预测和分子生成,并跨领域工作以回答生物医学问题和合成新分子。研究结果发表在《化学科学杂志》上。
虽然还有其他为生物医学发现而设计的法学硕士,包括BioBERT(生物医学文本挖掘转换器的双向编码器表示)和SciFive,但这些数据集主要依赖于生物医学自然语言文本,如药物、基因和细胞系名称,但不包含化学结构描述。那些同时具有文本和化学结构描述的生物,比如卡拉狄加,还没有接受过各种化学任务的训练。
Nach0首次试图弥合这一差距。它的数据集包括从PubMed提取的摘要文本和来自美国专利商标局的与化学领域相关的专利描述——1亿份文件变成了3.55亿个代币价值的摘要和29亿项专利,以及使用简化的分子输入行输入系统(SMILES)的分子结构。为了训练这个系统,研究人员将这些化学信息也转换成符号——47亿个——然后用特殊的符号注释这些符号。
使用该数据集,研究人员训练nach0执行三个关键任务:自然语言处理,如文档分类和问题回答;与化学相关的任务,如分子性质预测、分子生成和试剂预测;跨域任务,包括描述引导的分子设计和分子描述生成。
Insilico Medicine的创始人兼首席执行官Alex Zhavoronkov博士表示:“Nach0代表着通过自然语言提示自动化药物发现的一步。”“在未来,我们预计蛋白质序列可能会包含它们自己的特殊标记,并对模型进行微调,以适应新的模式,并探索文本和知识图谱信息的融合。”
Nach0建立在NVIDIA BioNeMo生成式人工智能平台上,支持药物发现应用的培训和扩展。具体来说,训练是使用NVIDIA NeMo进行的,这是一个用于开发定制生成人工智能的端到端平台。研究团队利用NLP能力来训练和评估新模型的LMs。NVIDIA的内存映射数据加载器模块允许研究人员以较小的内存占用和最佳的读取速度管理大型数据集。
英伟达生命科学业务发展全球主管Rory Kelleher表示:“生成式人工智能和法学硕士正在改变生物学和化学科学发现的格局。insilicon的特定领域nach0模型由NVIDIA BioNeMo提供支持,是释放llm在药物发现方面的全部潜力的重要一步。”
与用于生物医学理解的其他llm(如FLAN、SciFive和MolT5)相比,nach0在使用分子数据执行分子任务时具有明显的优势,并且明显优于ChatGPT。
研究人员在两个案例研究中测试了nach0的能力。第一个是产生能够有效对抗糖尿病的分子。研究人员进入了“发现具有潜在治疗活性的生物靶点,分析作用机制,生成分子结构,提出一步合成,预测分子性质”的提示。他们在分子生成提示符上生成了200个smile,并从化学专家知识的角度选择了一个最有希望的结构。他们还将nach0应用于一个案例研究中,作为Insilico的化学生成AI药物设计平台的演示,该模型仅在15分钟内生成8个分子,在化学生成42中得分30分钟。
Insilico的高级研究科学家、该论文的主要作者之一马克西姆·库兹涅佐夫(Maksim Kuznetsov)说:“我们预计,随着nach0的发展,它将需要更少的监督,它将能够简单地为药物化学家产生和验证有前途的治疗方案。”
Insilico Medicine是将生成式人工智能用于药物发现和开发的先驱。2016年,该公司首次在同行评审期刊上描述了使用生成式人工智能设计新分子的概念。然后,Insilico为其基于生成对抗网络(GAN)的人工智能平台开发并验证了多种方法和功能,并将这些算法集成到商用Pharma中。人工智能平台,包括生殖生物学,化学和医学,并已用于在多个疾病领域产生强大的有前途的治疗资产,包括纤维化,癌症,免疫学和衰老相关疾病,其中一些已获得许可。自2021年以来,Insilico已在其30多个资产的综合投资组合中提名了18个临床前候选药物,并已将6个管道推进到临床阶段。2024年3月,该公司在《自然生物技术》杂志上发表了一篇论文,披露了其先导药物的原始实验数据以及临床前和临床评估。先导药物是一种潜在的一流TNIK抑制剂,用于治疗特发性肺纤维化,目前正在患者的II期试验中使用生成式人工智能发现和设计。