基于机器学习与多源经济指标融合的尼日利亚农产品价格预测模型:提升小农生计的新策略

【字体: 时间:2025年09月18日 来源:Journal of Allergy and Clinical Immunology: Global CS1.9

编辑推荐:

  为解决尼日利亚小农因缺乏市场价格情报导致的贫困问题,研究人员开发了基于随机森林(Random Forest)的机器学习管道,整合CPI、汇率和原油价格等经济指标,实现番茄、洋葱等作物未来8个月的价格预测(MAPE低至11%)。该模型通过移动应用Coldtivate部署,为小农提供决策支持,显著提升收入潜力。

  

在尼日利亚,农业是国内生产总值的重要支柱,贡献了约25%的GDP,并雇佣了全国三分之二的劳动力。然而,尽管小农在粮食生产中扮演关键角色,约70%的小农却生活在贫困线以下,每日收入不足1.9美元。造成这一困境的核心因素之一是缺乏市场价格情报。农民目前仅依赖历史价格来决定何时、何地以及以什么价格出售农产品,这往往导致决策不佳,引发食物损失和潜在收入损失。价格波动受多种因素影响,包括农场与市场的距离、季节性变化,以及外部经济变量如燃油价格、外汇汇率和通货膨胀率。现有研究虽已应用多种机器学习模型(如ARIMA、LSTM、SVR)进行农产品价格预测,但大多忽视关键经济预测因子,且缺乏在线学习框架以适应动态市场环境。因此,开发一个能够整合经济指标、适应数据稀缺环境并实际部署的预测工具,对于改善小农生计至关重要。

为了应对这些挑战,研究人员开展了一项主题为利用食物价格预测改善尼日利亚小农生计的研究。他们开发了一个机器学习管道,核心是随机森林(Random Forest)模型,训练数据来源于从互联网定期爬取的历史月度新鲜农产品价格。研究还融入了外部经济预测因子,如消费者价格指数(CPI)、美元对奈拉汇率和原油价格,以增强预测准确性。模型通过一个名为Coldtivate的开源移动应用程序部署,为用户提供长达8个月的价格预测。

在技术方法上,研究采用了多种关键步骤。数据来源于三个官方仓库:尼日利亚国家统计局(NBS)的电子图书馆、尼日利亚中央银行(CBN)的网站和雅虎财经(Yahoo Finances),通过网络爬虫管道获取食物价格和经济指标数据。数据预处理包括使用标签编码(LabelEncoder)处理分类变量,并采用线性插值填充缺失值。特征选择基于线性相关分析和随机森林的特征重要性评分,最终确定了滞后特征(如上月价格和过去5个月价格)和外生特征(如CPI、汇率和原油价格)。模型训练采用了网格搜索交叉验证优化超参数,并使用了时间序列交叉验证框架来评估模型性能。性能指标主要关注平均绝对百分比误差(MAPE)和均方根误差(RMSE),以确保预测准确性。整个系统通过在线学习管道实现每月重新训练,以保持模型的时效性和适应性。

研究结果部分通过多个小节详细展示了模型的性能和验证。

在历史食物价格分析中,研究人员通过线图展示了拉各斯、卡诺和高原州等关键州的历史价格数据,揭示了价格存在显著的时间变异性和高标准差(某些商品超过100%),这证明了使用非线性机器学习模型进行预测的合理性。例如,番茄价格在拉各斯州从2017年1月的约100奈拉/公斤上升到2022年10月的400奈拉/公斤,显示出明显的上升趋势和波动性。

在模型比较中,随机森林模型在保持测试集评估中表现最佳,平均MAPE为11.01%,RMSE为45.16奈拉,优于其他模型如XGBoost、CatBoost、SARIMA和基准滚动平均模型。SARIMA模型由于假设平稳性和无法纳入外生变量,表现较差(MAPE 18.20%)。通过时间序列交叉验证(26个测试集),随机森林模型在大多数州和商品上保持MAPE低于20%,但在卡杜纳等5个州表现不佳(MAPE超过20%),这可能源于价格波动性高或数据不一致。

在统计显著性检验中,使用Diebold-Mariano测试比较模型预测准确性,随机森林和CatBoost模型在多数情况下显著优于基准模型( wins vs baseline 数量多),而SARIMA则表现不佳,这进一步支持了树基模型在 volatile 市场中的优越性。

在随机森林模型验证中,通过实际数据对比(2023年8月至2023年3月),模型在多数州和商品上准确捕捉了价格趋势,尽管在某些月份存在轻微高估或低估。例如,在尼日尔州的爱尔兰土豆预测中,模型初期高估但后期适应良好;在夸拉州的洋葱预测中,模型成功跟踪了上升趋势。

在模型实施部分,研究将模型集成到Coldtivate移动应用中,用户可以选择州和商品查看历史价格和未来预测,从而帮助农民优化销售决策,减少食物损失。应用还提供价格排名功能,增强用户体验和实用性。

研究结论强调,随机森林模型通过整合经济预测因子和历史价格数据,能够准确预测尼日利亚多种新鲜农产品的价格,平均MAPE低于20%,且优于其他基准模型。该模型在 producing states(如卡诺州)表现更好,而在消费中心(如拉各斯州)稍差。研究的意义在于为小农提供了可靠的 market intelligence,通过Coldtivate应用实现实际部署,有助于提高农民收入、减少 postharvest losses,并为政策制定者提供数据支持。未来工作可扩展至随机方法以量化不确定性,并纳入更多预测因子如气候变量和市场网络模型,以进一步提升预测 robustness 和政策相关性。

总之,这项研究不仅展示了机器学习在农业领域的创新应用,还为解决全球小农生计问题提供了可复制的框架,具有广泛的实践和理论价值。论文发表在《Journal of Allergy and Clinical Immunology: Global》,突出了其跨学科的重要性。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号