DNA基础模型在基因组与遗传任务中的基准测试:性能评估与策略优化
《Nature Communications》:Benchmarking DNA foundation models for genomic and genetic tasks
【字体:
大
中
小
】
时间:2025年11月29日
来源:Nature Communications 15.7
编辑推荐:
本研究针对DNA基础模型缺乏全面评估的现状,开展了五类模型(DNABERT-2、NT-v2、HyenaDNA、Caduceus-Ph、GROVER)在57个数据集上的系统性基准测试,涵盖序列分类、基因表达预测、变异效应量化和TAD区域识别等任务。研究发现均值令牌嵌入策略显著提升分类性能(AUC提高1.4%-8.7%),模型表现呈现任务特异性:通用模型在致病变异识别中表现优异,但在基因表达预测和QTL识别中逊于专用模型。该研究为模型选择提供了框架,揭示了架构、预训练数据和嵌入策略对性能的影响机制。
随着自然语言处理技术的飞速发展,基础语言模型通过自监督预训练已成为解码序列信息的范式。GPT-4、Llama 3等模型的成功经验被迅速扩展到生物信息学领域,催生了针对DNA序列的基础模型浪潮。这些模型通过将DNA序列转化为数值嵌入,在序列分类、变异效应预测等任务中展现出超越传统方法的潜力。然而,当前DNA基础模型的评估存在明显局限:多数研究依赖微调后的性能比较,这种评估方式可能因模型过拟合程度差异、参数高效微调方法的复杂性而引入偏差。更重要的是,不同模型在架构设计、预训练数据、嵌入策略等方面存在显著差异,但缺乏系统研究揭示这些因素如何影响模型在多样化基因组任务中的表现。
为解决这一问题,德克萨斯大学MD安德森癌症中心等机构的研究团队在《Nature Communications》发表了针对五种主流DNA基础模型(DNABERT-2、Nucleotide Transformer V2、HyenaDNA、Caduceus-Ph、GROVER)的全面基准研究。该工作创新性地采用零样本嵌入评估策略,通过冻结模型权重并连接可训练卷积神经网络的方式,在57个数据集上系统评估了模型在四大类任务中的表现:人类基因组区域分类、多物种基因组区域分类、人类表观遗传特征分类、多物种表观遗传特征分类。
关键技术方法包括:采用随机森林分类器/回归器评估零样本嵌入质量;通过嵌套交叉验证和染色体分组策略确保变异效应评估的稳健性;利用自注意力矩阵分析模型对拓扑关联域(TAD)的识别能力;通过控制预训练实验(基于135个物种的多物种数据重新训练HyenaDNA)探究数据多样性影响。
序列分类任务中,研究人员首先对三种嵌入池化策略进行了系统比较。结果显示,均值令牌嵌入策略显著优于句子级摘要令牌嵌入和最大池化,在52个二分类数据集中平均提升AUC达1.4%-8.7%。这种优势在启动子识别等任务中尤为明显,例如在GM12878细胞系的启动子识别中,DNABERT-2的AUC从0.964提升至0.986。进一步分析发现,均值池化能有效缓解模型架构差异带来的性能波动,使模型间平均AUC范围从0.708-0.799缩减至0.795-0.822。
在人类基因组区域分类任务中,Caduceus-Ph表现出整体优势,在转录因子结合位点预测等任务中显著优于其他模型。DNABERT-2则在剪接位点预测中表现突出,供体和受体识别任务的AUC分别达到0.906和0.897。多物种任务中,仅接受人类基因组预训练的HyenaDNA在拟南芥启动子识别中意外表现优异(TATA/非TATA启动子AUC达0.961/0.955),表明其架构具有跨物种语义信息提取能力。
基因表达预测分析显示,基于零样本嵌入的预测相关性整体较微弱(Pearson相关系数0.114-0.123),但存在部分基因如CUTALP、DDX11等能稳定达到0.8以上的预测精度。延伸序列长度至196K bp仅使HyenaDNA性能显著提升,其他模型改善有限。变异效应量化评估揭示出任务依赖性特征:在致病性变异识别中,NT-v2表现突出(AUC=0.73),显著优于功能轨迹预测专用模型Enformer(AUC=0.69);而在QTL变异效应预测中,专用模型AlphaGenome(eQTL任务AUC=0.80)保持明显优势。
预训练实验证实多物种数据能显著提升模型泛化能力。基于135个物种重新预训练的HyenaDNA在49个数据集中有14个表现显著提升,特别是在跨物种泛化和表观遗传模式识别任务中。然而,原始人类基因组预训练模型在少数人类特异性任务中仍保持优势,表明预训练数据组成需根据目标应用领域进行针对性选择。
拓扑关联域识别实验发现,NT-v2的自注意力机制未表现出对TAD边界的固有识别能力。注意力矩阵差异热图显示,TAD中心序列与背景序列的注意力模式无显著差异,表明当前DNA基础模型尚不能无监督学习高阶染色质结构。运行时分析显示,HyenaDNA在长序列处理中具有显著效率优势,其架构通过长卷积和隐式参数化实现了近似线性的计算复杂度。
本研究通过建立标准化评估框架,揭示了DNA基础模型在零样本设置下的实际能力边界。均值令牌嵌入的策略优势为下游应用提供了重要技术指导,而模型在致病变异识别与QTL预测中的表现差异,则反映了通用序列理解与特定功能预测之间的本质区别。这些发现不仅为模型选择提供了实证依据,更指明了未来发展方向:通过融合多物种预训练策略、优化嵌入提取方法、开发可解释性架构,DNA基础模型有望真正成为解读基因组“语法”的关键工具。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号