通过整合CatBoost和SHAP模型来提高水稻地上生物量估算的准确性和可解释性

《Food and Energy Security》:Improving Accuracy and Interpretability of Rice Aboveground Biomass Estimation by Integrating CatBoost and SHAP Model

【字体: 时间:2025年11月23日 来源:Food and Energy Security 4.5

编辑推荐:

  精准农业中,基于CatBoost与SHAP分析的低空多光谱影像特征(植被指数+纹理特征)对水稻地上生物量(AGB)的估算模型研究。采用无人机平台采集全生长周期影像,构建高精度CatBoost模型,结合SHAP交互效应分析,揭示PC2Mean、VARIre、PC1Cor等核心特征及相互作用对AGB估算的影响,R2达0.96,RMSE为813 kg/ha,较传统模型提升12%-28%。

  在现代农业的发展过程中,精准农业已经成为提升作物产量和优化田间管理的重要手段。其中,水稻的地上生物量(AGB)作为评估作物生长状态和产量潜力的关键指标,其准确和高效估算对农业决策具有重要意义。传统的AGB估算方法依赖于破坏性采样,不仅耗费大量时间和人力,而且难以全面反映田间不同区域的生物量分布。因此,借助遥感技术,尤其是无人机平台,提供了一种非破坏性、高效且高精度的解决方案。

近年来,机器学习(ML)技术在作物生物量估算方面取得了显著进展。这些技术能够处理复杂的非线性关系,提升估算精度。然而,尽管机器学习模型在预测能力上表现优异,其“黑箱”特性使得模型的可解释性较差,难以明确输入特征与预测结果之间的因果关系。为了克服这一局限,研究者们开始探索可解释性机器学习方法,其中SHapley Additive exPlanations(SHAP)作为一种基于博弈论的后处理解释方法,被广泛应用于揭示模型预测的特征贡献和交互作用。

本研究旨在构建一个既具有高精度又具备良好可解释性的水稻AGB估算模型,通过将CatBoost集成学习算法与SHAP特征解释方法相结合,实现对水稻生长周期中多模态数据的全面分析。研究过程中,采用无人机平台获取水稻冠层的多光谱图像,并结合田间试验数据,提取植被指数(VIs)和纹理特征(TFs)作为输入特征。通过CatBoost模型对这些特征进行建模,并利用SHAP分析量化各特征及其交互作用对AGB估算的贡献。

实验在安徽省小岗村开展,选取了四种氮肥处理和三种水稻品种,构建了一个随机分割的田间实验设计。在生长周期的关键节点,采集了AGB样本,并利用高温烘烤等方法确保数据的准确性。同时,无人机飞行参数被严格控制,以确保图像数据的一致性和高质量。图像预处理过程中,采用了Pix4Dmapper软件进行自动配准和镶嵌,生成高精度的数字正射影像图,并通过反射率校正确保数据的可靠性。

在特征提取方面,研究涵盖了16种植被指数和8种纹理特征。植被指数主要通过特定光谱波段的反射率计算,以反映作物的生理状态和生长状况。而纹理特征则基于灰度共生矩阵方法,通过分析图像中灰度级的变化,提取出描述冠层结构和空间分布的特征。通过主成分分析(PCA)对多光谱数据进行降维处理,选择累积贡献率超过90%的主成分用于后续分析。

在模型构建过程中,研究者选择了CatBoost算法作为主要工具,并将其与随机森林回归(RFR)和LightGBM算法进行对比分析。CatBoost是一种基于梯度提升决策树(GBDT)的框架,其创新之处在于使用有序提升和对称树结构,有效减少了梯度估计偏差和过拟合风险。通过网格搜索方法对模型的超参数进行优化,确保模型在不同数据集上的泛化能力。

模型评估结果显示,CatBoost在使用VIs和TFs的组合特征时表现最优,其在训练集和测试集上的预测性能分别达到了R2 = 0.96和RMSE = 813.00 kg/ha。相比之下,RFR和LightGBM在部分数据划分比例下表现较差,特别是在样本量较少的情况下,其预测误差较大。研究还发现,当训练集与测试集的比例为9:1时,模型的预测误差最小,且预测结果与实际值高度吻合,说明该划分比例最能反映数据的原始分布,从而提高模型的泛化能力。

SHAP分析进一步揭示了特征对AGB估算的具体贡献。研究发现,TFs(均值、均匀性、方差和相关性)以及部分VIs(如可见大气抗性红边指数(VARIre)、归一化红边指数(NDRE)和归一化植被指数(NDVI))对AGB估算具有显著影响。在测试集中,主效应和交互效应分别贡献了76%和44%,而在训练集中则分别为59%和55%。这一结果表明,特征之间的交互作用在模型预测中具有重要地位,特别是不同特征之间的协同效应和对抗效应,对提高模型性能至关重要。

此外,研究还通过多变量分析方法,如条形图、蜜蜂图、部分依赖图(PDPs)和散点图,对特征的贡献和交互效应进行了可视化分析。这些图表不仅展示了各特征对AGB估算的总体影响,还揭示了不同特征在特定条件下的局部作用。例如,当VARIre值大于0.56时,模型对AGB的估算显著增加;而PC2Mean值在特定范围内时,其对AGB的贡献由正转负,表明该特征在不同生长阶段可能具有不同的作用机制。

通过将CatBoost与SHAP结合,本研究不仅提升了模型的预测精度,还增强了其可解释性,为农业遥感应用提供了可靠的预测框架。该框架能够帮助农业管理者更清晰地理解不同特征对作物生物量的贡献,从而在田间管理中做出更加科学和合理的决策。同时,该方法也为其他作物的生物量估算提供了借鉴,特别是在复杂田间条件下,结合多模态数据的特征提取和模型解释方法,有助于更全面地掌握作物生长状况。

尽管本研究取得了一定成果,但仍然存在一些局限性。例如,当前模型的训练和验证数据仅来自单一作物年份,可能影响其在不同年份和地区的泛化能力。此外,虽然SHAP分析揭示了特征之间的交互作用,但如何进一步区分这些交互作用与特征之间的共线性,仍是未来研究的重要方向。研究者还建议,在未来的工作中,应扩展数据集,涵盖更多作物类型、生长阶段和地理区域,以提高模型的适用性和稳定性。

总之,本研究通过将CatBoost与SHAP结合,构建了一个既高效又可解释的水稻AGB估算框架,为精准农业提供了新的思路和技术手段。该方法不仅提高了模型的预测能力,还增强了对特征作用机制的理解,有助于农业决策的科学化和精细化。未来,随着更多数据的积累和算法的优化,这种结合多模态数据和可解释性分析的方法将在农业遥感领域发挥更大的作用。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号