基于注意力机制的功能基团粗粒化:面向分子预测与设计的深度学习新框架

《npj Computational Materials》:Attention-based functional-group coarse-graining: a deep learning framework for molecular prediction and design

【字体: 时间:2025年11月23日 来源:npj Computational Materials 11.9

编辑推荐:

  本刊编辑推荐:针对分子材料设计中数据稀缺的难题,研究人员开发了融合功能基团粗粒化与自注意力机制的深度学习框架。该研究通过构建层次化图自编码器生成分子嵌入表示,结合自注意力机制精准预测热物理性质,在仅6,000个未标记和600个标记单体数据下实现92%的预测准确率。该方法成功应用于粘合剂聚合物单体设计,实现了玻璃化转变温度(Tg)等性质的定向优化,为数据受限场景下的功能材料开发提供了新范式。

  
在当代材料科学与药物研发领域,分子设计始终面临着化学空间组合爆炸与数据稀缺的双重挑战。传统分子指纹方法虽能基于局部结构进行性质预测,但难以捕捉官能团间的长程相互作用;而基于原子图的自编码器虽能生成连续分子嵌入,却需要大量标记数据支撑训练。特别是在聚合物材料等特定领域,可获得的标记分子数据往往不足千例,严重制约了机器学习模型的应用潜力。
发表于《npj Computational Materials》的最新研究提出了一种创新解决方案:通过功能基团粗粒化策略构建层次化分子表示,结合自注意力机制实现数据高效的材料设计。该框架的核心在于将约100个关键功能基团作为分子“词汇表”,建立原子级与基团级双重图表示,从而在保持化学意义的前提下显著降低数据需求。
研究团队首先构建了层次化图自编码器,其编码过程采用自底向上策略:通过消息传递网络(Message Passing Network, MPN)编码原子图,再通过多层感知机(Multi-Layer Perceptron, MLP)聚合功能基团特征,最后通过变分推断生成分子嵌入。解码器则采用自回归方式逐步重构分子,每一步预测新功能基团类型及其连接位点。该模型在粘合剂单体数据集上实现了95%的重建准确率,远超基于SMILES字符串(约60%)和原子图的方法。
性质预测模块创新性地将自注意力机制引入功能基团分析。通过多头部注意力权重量化基团间相互作用强度,结合原子级与基团级贡献的双重池化操作,构建了高精度的性质预测模型。在QM9数据集上的测试表明,仅用5%数据(6,000分子)即可达到R2≈0.97的预测精度,媲美传统方法在十倍数据量上的表现。
关键技术方法包括:基于功能基团的分子层次图构建、变分图自编码器训练、自注意力机制的性质预测模型、分子动力学(Molecular Dynamics, MD)模拟验证。粘合剂单体数据集包含600个标记样本,通过GROMACS软件进行全原子分子动力学模拟获取玻璃化转变温度(Tg)、内聚能(Ecoh)等性质标签。
粗粒化图自编码器
通过功能基团词汇表将分子表示为双层图结构,编码器通过消息传递网络逐级提取特征,解码器以自回归方式重构分子。在粘合剂单体数据集上,t-SNE可视化显示模型能自动将单体按化学类型聚类,证明嵌入空间的化学合理性。
注意力辅助的性质预测模型
采用多头自注意力机制计算功能基团间相互作用权重,结合原子级与基团级贡献的双重池化策略。在600个单体数据集上,对Ecoh、Tg等六个性质的预测R2>0.92,多性质同步预测精度仍保持R2>0.84。
自动化分子设计管道
整合生成与预测模块,从先验分布采样生成5万个新分子,通过性质预测筛选候选物。MD验证显示,新分子Tg值超出训练集范围,证明模型具备超越训练数据的探索能力。
该研究通过功能基团粗粒化与注意力机制的协同创新,实现了数据稀缺场景下的精准分子设计。层次化表示既保留了原子级细节,又通过功能基团约束了化学空间的合理探索,使模型在有限数据下仍能生成具有拓展性质的新分子。这一框架为聚合物材料、生物分子等复杂系统的定向设计提供了通用解决方案,有望加速功能材料的发现进程。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号