xTrimoPGLM:破解蛋白质语言密码的千亿参数统一预训练模型

《Nature Methods》:xTrimoPGLM: unified 100-billion-parameter pretrained transformer for deciphering the language of proteins

【字体: 时间:2025年04月04日 来源:Nature Methods 36.1

编辑推荐:

  来自生物计算领域的研究团队针对蛋白质理解与生成任务难以兼顾的挑战,创新性地开发了统一预训练框架xTrimoPGLM。该模型通过联合优化自编码与自回归目标,以1000亿参数和1万亿训练token的规模实现突破,在18项蛋白质理解任务中超越现有基准,并具备原子级结构解析和可编程序列生成能力,为蛋白质科学基础模型发展树立新标杆。

  

蛋白质语言模型(Protein Language Models)在从序列中解码生命信息方面展现出惊人潜力,但传统模型受限于单一的自编码(autoencoding)或自回归(autoregressive)预训练目标,难以同时驾驭蛋白质理解与生成任务。研究团队提出的xTrimoPGLM通过创新性地探索两类目标的兼容性,构建了首个千亿级(100B)参数统一模型,使用1万亿训练token进行优化。实验证实:(1)在四大类18项蛋白质理解任务中显著超越现有基线,其原子分辨率(atomic-resolution)的蛋白质结构解析能力,催生出超越同类工具的三维结构预测模型;(2)不仅能遵循自然法则生成全新蛋白质序列(de novo),还能通过监督微调实现可编程生成(programmable generation)。这些突破彰显了该模型在蛋白质科学与生物计算领域的里程碑意义,相关权重与数据集已开源共享。

下载安捷伦电子书《通过细胞代谢揭示新的药物靶点》探索如何通过代谢分析促进您的药物发现研究

10x Genomics新品Visium HD 开启单细胞分辨率的全转录组空间分析!

欢迎下载Twist《不断变化的CRISPR筛选格局》电子书

单细胞测序入门大讲堂 - 深入了解从第一个单细胞实验设计到数据质控与可视化解析

下载《细胞内蛋白质互作分析方法电子书》

相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号