
-
生物通官微
陪你抓住生命科技
跳动的脉搏
季节性和区域特征对中国降水类型机器学习预测模型性能的影响研究
【字体: 大 中 小 】 时间:2025年06月10日 来源:Journal of Hydrology 5.9
编辑推荐:
推荐:针对中国降水类型(PTs)预测精度不足的问题,研究人员利用ERA5再分析数据和气象站观测记录,构建了四种随机森林分类器(RFC)模型。研究发现近地表气温、露点温度和暖层深度是关键预测变量,其中季节性训练模型(RFC_Seasonal)表现最优,其空间相关性优于ERA5数据集。该研究为极端天气灾害预警和气候模型集成应用提供了新方法。
在全球气候变化加剧的背景下,中国频繁遭遇冻雨、雨夹雪、冰雹等高影响降水类型(PTs)引发的极端天气灾害。2007-2008年冬季华南特大冻雨灾害造成巨大损失,凸显了准确预测降水类型的紧迫性。然而现有研究面临三大挑战:气象站点观测数据空间不连续、数值模式无法直接模拟PTs,以及传统经验诊断方法对湿雪、冻雨等特殊PTs识别能力有限。
中国某研究机构团队在《Journal of Hydrology》发表研究,创新性地将机器学习(ML)技术引入降水类型气候学研究。通过整合ERA5再分析数据(1990-2014年)与英国气象局MIDAS系统观测记录,构建了四种随机森林分类器(Random Forest Classifier, RFC)架构:全国统一模型(RFC_China)、分区模型(RFC_Regional)、分季模型(RFC_Seasonal)和分区分季组合模型(RFC_Regional & Seasonal)。研究采用合成少数类过采样技术(SMOTE)解决数据不平衡问题,通过ANOVA F检验筛选出25个关键气象变量,包括2米气温、850 hPa相对湿度(RH)和300 hPa纬向风(U)等。
关键技术方法包括:1) 基于MIDAS系统56类天气编码提取7种PTs观测数据;2) 采用最小-最大归一化预处理ERA5的36个气象变量;3) 十折交叉验证优化模型性能;4) 通过核密度估计(KDE)分析变量与PTs的关联特征。
【研究结果】
4.1节揭示2米气温在北方地区特征评分最高(达0.25),而南方PTs更依赖700-300 hPa层水汽输送。冬季300 hPa急流与冻雨发生显著相关(r>0.7),这解释了RFC_Seasonal对冬季冻雨预测的优越性。
4.2节显示RFC_Seasonal对液态雨的空间相关系数达0.91,显著优于ERA5的0.82。但对湿雪的预测仍存在挑战,所有模型在东北地区的低估幅度达100%。
4.3节统计评估表明,RFC_Seasonal综合评分(42分)最高,其冻结雨检测准确率(30%)是ERA5(16%)的近两倍。混淆矩阵显示,模型将21%的湿雪误判为干雪,反映相态转变过程的模拟仍是难点。
4.4节证实ML模型整体优于ERA5参数化方案,特别是对冰粒的空间相关性提升0.4以上。但冰雹预测仍不理想,因样本量不足导致真阳性率低于5%。
【结论与意义】
该研究首次系统评估了训练数据时空范围对PTs预测的影响,证实季节性训练策略能有效提升模型性能。关键发现包括:1) 近地表热力变量主导PTs预测,但高层动力场对南方冻雨有附加贡献;2) RFC_Seasonal冬季PTs分类技能最佳,其空间相关系数比ERA5提高10-15%;3) 区域训练模型表现欠佳,反映PTs与气象条件的关联具有强季节性而弱区域性。
研究成果为气候模式与ML的融合应用开辟了新途径,未来可集成到CMIP6模式中预测全球变暖背景下PTs的变化趋势。局限性在于小样本PTs预测精度不足,后续研究可尝试随机森林空间插值等新型采样方法。该工作对完善中国极端降水灾害预警系统和关键基础设施气候韧性建设具有重要实践价值。
生物通微信公众号
知名企业招聘