利用多种结构描述符,通过机器学习方法预测FAPbI(一种钙钛矿材料)中的能量和带隙值

《Organic Electronics》:Machine learning-driven prediction of energy and band gap in FAPbI 3 perovskite using diverse structural descriptors

【字体: 时间:2025年11月27日 来源:Organic Electronics 2.6

编辑推荐:

  FAPbI3材料通过机器学习模型(ANN/RF)结合GTSD/PTSD结构描述符实现能量和带隙的高效预测,验证GTSD在能量预测中性能更优(R2>0.95),而RF在带隙预测中精度更高(R2>0.93),但计算耗时是ANN的45倍。温度影响数据多样性,300K和660K数据集预测效果最佳。结构-能量关系主要受Pb-I骨架与FA+离子的二体、三体相互作用主导,带隙预测需突破几何描述符局限。

  
钙钛矿材料因其优异的光电性能和可调带隙特性成为新能源研究的热点领域。FAPbI3作为典型钙钛矿体系,其α相与δ相间的动态转变直接影响材料的光电活性。针对传统计算手段在复杂体系筛选中效率不足的问题,该研究构建了基于机器学习的多尺度预测框架,系统考察了结构描述符、模型算法与数据特征对预测精度的影响。

在数据构建方面,通过96原子规模的FAPbI3分子动力学模拟获取1000个结构快照,结合Gaussian型结构描述符(GTSD)和功率型结构描述符(PTSD)进行特征编码。其中GTSD通过30种径向基函数和120种角度基函数捕捉两体和三体相互作用,构建了14.4万维的结构特征空间;PTSD则引入四体相互作用项,生成41.28万维的描述符集合。实验发现GTSD在能量预测中表现更优,其训练集与测试集的R2值分别达到0.978和0.956,RMSE为0.507,而PTSD的预测误差增加约60%。这种差异源于钙钛矿的立方对称结构,其核心的[PbI6]8-八面体框架仅需两体和三体相互作用即可有效表征,四体相互作用在简单立方结构中贡献度较低,反而引入冗余信息。

模型构建部分,人工神经网络(ANN)采用三 hidden layer的[10,10,10]拓扑结构,通过tan-sig与log-sig混合激活函数实现非线性映射。对比实验显示,ann模型在能量预测中仅需80秒(12核CPU),而传统DFT计算耗时高达300000秒,效率提升三个数量级。随机森林(RF)模型通过Shapley值特征筛选,发现影响能量最显著的三体相互作用来自Pb-I骨架与FA+阳离子的协同作用,其次是FA+自身的三体相互作用。值得注意的是,RF模型在带隙预测中表现更优,其测试集R2达到0.927,RMSE为0.022,较ANN模型分别提升48%和57%的精度。

研究创新性地构建了多温度(300K、480K、660K)数据集,发现结构相变幅度与温度正相关。在300K和660K的高动态条件下,ANN-GTSD模型能量预测R2均超过0.95,而中温480K的数据集因结构变化平缓,模型预测性能下降约30%。这表明数据多样性对机器学习模型泛化能力具有重要影响,需要确保训练集覆盖足够多的结构态变化。

在模型比较方面,随机森林通过自动特征筛选,有效规避了四体相互作用带来的噪声干扰。实验显示,对于GTSD数据,RF模型在能量预测中的RMSE比ANN降低62%,而带隙预测的R2提升达39%。但RF模型计算耗时是ANN的45倍,这凸显了不同模型在精度与效率间的权衡。研究特别指出,带隙作为电子结构参数,传统几何描述符的局限性导致预测误差显著高于能量参数。电子云分布、能带跃迁等微观特性需要更精细的量子化学描述符来捕捉。

该工作为钙钛矿材料设计提供了新方法论:首先验证了GTSD在立方对称体系中的适用性,其次证明了RF特征筛选在降低维度(从14.4万维降至前10特征)的同时保持高精度;最后揭示了温度对材料结构多样性的影响规律。研究建议后续工作可结合电子结构描述符(如DFT计算得到的态密度或电荷分布)与几何特征,构建多尺度描述符,以突破当前模型在带隙预测中的瓶颈。这些发现不仅优化了现有机器学习流程,更为多相态钙钛矿材料的理性设计提供了关键理论依据。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号