基于迁移学习(TL)的深度学习模型跨流域泛化预测有害藻华(HABs)研究
《Ecological Genetics and Genomics》:Generalizable deep learning forecasting of harmful algal blooms using transfer learning across river systems
【字体:
大
中
小
】
时间:2025年10月18日
来源:Ecological Genetics and Genomics CS1.8
编辑推荐:
本研究针对有害藻华(HABs)预测中数据稀缺和站点特异性差异的难题,系统探讨了迁移学习(TL)结合多种深度学习架构(如TFT、Transformer、CNN-LSTM等)在韩国四大河流26个监测站点的应用。研究结果表明,TL显著提升了模型泛化能力与预测精度(平均R2从0.35–0.50提升至0.47–0.60),其中TFT模型表现最优,SHAP分析进一步识别出气象与水质关键驱动因子。该研究为数据稀缺环境下的HABs预警提供了可扩展、可迁移的深度学习框架,对水生态安全管理具有重要实践意义。
随着全球气候变化和人类活动影响的加剧,有害藻华(Harmful Algal Blooms, HABs)的发生频率、强度和地理分布范围正不断扩大。这类以蓝藻为主的水华现象不仅严重影响水生生态系统的健康,还会通过释放藻毒素和产生异味物质,直接威胁饮用水安全与公众健康。尽管深度学习(Deep Learning, DL)模型在HABs预测中已展现出强大的潜力,但由于监测数据稀缺、站点间差异显著以及环境因子复杂交互等因素,构建具有高精度和强泛化能力的预测模型仍面临巨大挑战。
为应对上述问题,来自首尔大学环境工程学院的Jaegwan Park、Taeseung Park等研究人员开展了一项系统性研究,探索利用迁移学习(Transfer Learning, TL)提升深度学习模型在跨流域HAB预测中的泛化能力。该研究覆盖了韩国汉江、锦江、荣山江和洛东江四大流域的26个监测站点,综合比较了多种DL模型(包括Temporal Fusion Transformer, TFT、Transformer、CNN-LSTM with Attention, CLA以及LSTM、Bi-LSTM、GRU等循环神经网络架构)与四种TL策略(全微调、模型冻结、带初始化的全微调及模型冻结加初始化)的表现。研究成果已在《Ecological Genetics and Genomics》发表。
在研究过程中,团队整合了2012–2023年间的多源数据,包括蓝藻细胞计数、水质参数(如叶绿素a、总氮TN、总磷TP、水温WT)、水文指标(水位、总流量)和气象变量(气温、降水量、预报温度)等。采用卡尔曼滤波对缺失值进行插补,并依据不同站点数据可用性划分训练集(2012–2021)、验证集(2022)和测试集(2023)。模型以周为单位预测蓝藻数量,输入序列长度为两周,使用Adam优化器进行超参数调优,并借助SHAP(SHapley Additive exPlanations)分析增强模型可解释性。
2.1. HABs时空变异特征及其对预测的启示
研究发现,洛东江的蓝藻细胞数量最高(中位数175 cells/mL,极值达750,026 cells/mL),而汉江的藻华发生频率最低。绝大多数藻华事件集中在夏秋季节(6–11月),且下游站点藻华强度普遍高于上游。这一时空分布 pattern 为模型构建提供了重要的先验知识:藻华高发区数据丰富、模式清晰,更利于模型捕捉动态规律。
3.2. TL融合对DL预测性能的影响
所有深度学习模型在引入TL后预测性能均显著提升。平均R2从TL前的0.35–0.50提高到0.47–0.60,其中TFT模型表现最为突出,在11个站点上取得最佳性能,Transformer和CLA分别于6个和4个站点领先。全微调(S1方案)平均性能最优,共在57个站点-模型组合中领先,而模型冻结策略(S2、S4)虽计算效率高,但性能提升有限。这表明,充分适应目标域数据的参数调整是提升跨站点泛化能力的关键。
3.3. 河流特异性表现与藻华强度的关系
TL带来的性能提升程度与藻华发生强度密切关联。洛东江站点平均R2从0.59提升至0.73,改善幅度达25.53%,而藻华较少的汉江改善幅度相对较小(R2从0.25至0.39)。说明TL在数据丰富、藻华高发区域能更充分地释放模型潜力,而在低藻华区域受限于本地模式稀疏,改善幅度有限但仍具显著意义。
3.6. 模型可解释性与HABs预测的关键驱动因子
借助SHAP分析,研究团队发现蓝藻细胞计数、气温和预报温度是影响预测的最全局重要因子,总氮(TN)和水位也在多数站点表现出较高贡献度。这一结果与藻华形成的生态机制高度一致——高温、营养盐积累和静水环境是藻华发生的重要前提。该发现不仅验证了模型决策的合理性,也为区域化管理提供了调控靶点,如通过削减氮负荷和调控水位抑制藻华发生。
通过系统评估多种TL策略与深度学习架构的组合效能,本研究确立了迁移学习在提升藻华预测模型泛化能力方面的重要价值。特别是在目标域数据稀缺的情况下,TL能有效迁移来自数据丰富区域的知识,显著提高预测精度与稳健性。TFT作为表现最佳的模型,展现出处理多变量时间序列和捕捉长期依赖关系的优势,而全微调是目前最具适应力的TL策略。
该研究不仅为不同藻华发生情境下的模型选择与优化提供了实践指导,还进一步推动了可解释人工智能在环境预测中的应用。所提出的TL框架具备高度可扩展性和迁移性,可用于其他数据稀缺的生态预警场景,为发展智慧水务与精准环境管理提供了有力工具。未来研究可探索自适应层选择、跨域相似性度量以及多任务学习等策略,进一步增强复杂环境下藻华预测的时效性与准确性。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号