机器学习、泛化与迁移学习在预测海滩上粪便指示菌浓度超过阈值的应用

《Environmental Science & Technology》:Machine Learning, Generalization, and Transfer Learning for Predicting the Exceedance of Fecal Indicator Bacteria Thresholds at Beaches

【字体: 时间:2025年10月22日 来源:Environmental Science & Technology 11.3

编辑推荐:

  机器学习模型通过迁移学习从芝加哥高频监测海滩的数据中迁移到圣地亚哥低频监测海滩,提升了粪大肠杆菌(FIB)阈值超过预测的特异性(0.70-0.81)和灵敏度(0.28-0.76)。随机森林模型结合特征增强和加权训练表现最佳,AUC达0.713,较传统逻辑回归模型提升约12%。但灵敏度仍不足,需优化数据源选择和模型调优。

  本研究探讨了通过机器学习(ML)模型预测海滩水体中粪便指示菌(FIB)水平的应用,特别是在利用频繁监测海滩的数据开发模型后,将其应用于监测频率较低的其他海滩的“迁移学习”(TL)方法。随着对公众健康保护需求的增加,频繁进行水样采集和FIB分析变得愈加重要,然而,这一过程通常耗时且成本高昂,使得许多海滩无法进行定期监测,从而增加了公众健康风险。通过迁移学习,可以在不同地理位置之间实现模型的迁移,提高模型的泛化能力,为那些缺乏数据的海滩提供及时的水质信息。

研究发现,迁移学习在预测FIB阈值超限方面表现良好,其特异性在0.70至0.81之间,敏感性则根据海滩和迁移学习方法的不同,范围在0.28至0.76之间。这些结果表明,迁移学习在提升模型性能方面具有显著优势,与基于单个海滩数据开发的回归和机器学习模型的性能相当。此外,研究还发现,在模型开发过程中引入迁移学习,可以显著提升模型性能,其中WF1评分提高了28.3%,AUC提高了5.4%。未来的研究可能集中在优化选择数据丰富的源海滩,以进一步提高迁移学习的效果。

研究的主要目标包括:1)基于已有的模型,预测特定阈值的超限情况,使用一个海滩的数据集训练模型,并将其应用于另一个海滩;2)优化模型的迁移学习能力,以提升其在不同地点的泛化能力;3)使用敏感性、特异性、预测值和AUC等指标评估分类模型的性能。研究还涉及了多种机器学习模型的开发和评估,包括随机森林(RF)和逻辑回归(LR)等,以及监督和非监督迁移学习方法的应用。

数据收集方面,研究使用了芝加哥和圣地亚哥两个美国城市的海滩数据,包括FIB和环境数据。芝加哥的数据集包含19个淡水海滩的每日测量数据,时间跨度为2016年至2019年;圣地亚哥的数据集则包含14个海洋海滩的每日测量数据,时间跨度为2014年至2021年。数据的链接基于FIB采样日期和时间,包括天气、潮汐、波浪和太阳辐射等信息。研究还考虑了数据集中的缺失值问题,通过比较不同的缺失值填补方法,选择了较为合适的策略。

数据预处理是模型开发的关键环节,包括数据分布的分析、训练/测试数据的划分、缺失值填补和数据不平衡的处理。研究发现,芝加哥和圣地亚哥的数据集在FIB和预测变量的分布上存在差异,这强调了迁移学习方法在数据迁移过程中的重要性。数据划分采用时间块划分方法,确保训练数据和测试数据的时间分布合理,以防止数据泄露。研究还通过数据填补方法处理缺失值,并通过特征缩放方法将数值特征标准化,以提高模型的稳定性。

模型优化方面,研究对多种超参数进行了调整,包括逻辑回归和随机森林模型的超参数。通过将训练数据划分为四折,并使用不同的折叠进行模型训练和验证,研究评估了不同超参数组合对模型性能的影响。研究还对数据采样方法进行了测试,以评估其对模型结果的改进效果。

模型评估方面,研究使用了ROC曲线和AUC值来评估模型的性能。ROC曲线展示了模型在不同阈值下的真阳性率(敏感性)和假阳性率(1 - 特异性)之间的权衡,而AUC值则量化了模型的整体性能。此外,研究还使用了F1分数,包括每类F1分数和加权F1分数,以更全面地评估模型的性能。通过多次运行模型并计算平均值和标准差,研究确保了评估结果的稳健性。

研究还探讨了特征重要性,通过随机森林和逻辑回归模型来识别对预测结果影响较大的特征。在随机森林中,特征重要性基于平均减少不纯度(MDI),而在逻辑回归中,特征重要性则基于系数的大小。研究还计算了特征之间的相关性矩阵,以识别可能被模型忽略但具有重要信息的特征。此外,研究通过信息增益评估特征选择的潜力,以简化模型并提高其可解释性。

数据泄漏管理是模型开发中的重要考虑因素,研究确保在训练数据上进行特征缩放和缺失值填补,避免测试数据对模型性能的影响。研究还采用了时间块划分方法,确保测试数据的时间分布与训练数据不同,以防止数据泄露。

研究结果表明,迁移学习在提升模型性能方面具有显著优势,特别是在预测FIB阈值超限方面。例如,使用迁移学习的RF模型在圣地亚哥到芝加哥的迁移中表现良好,其特异性提高,敏感性也有明显改善。然而,研究也指出,迁移学习的效果受到源数据和目标数据的差异影响,因此,需要更多的数据和更全面的特征信息来提高模型的准确性。

此外,研究发现,不同类型的模型在不同地点的表现存在差异。例如,随机森林模型在预测负类(未超限)方面表现优于逻辑回归模型,而在预测正类(超限)方面则表现相对较低。研究还比较了不同迁移学习方法的效果,发现监督迁移学习方法(如特征增强和平衡权重)在大多数情况下都显著提升了模型性能,而非监督迁移学习方法(如相关对齐和子空间对齐)则效果不一。

研究还强调了特征选择的重要性,通过计算信息增益来识别对模型预测贡献较小的特征,并将其从模型中移除。尽管特征选择结果与使用所有特征的结果相似,但研究认为,由于数据集中的特征数量相对较少(只有12个特征),因此保留所有特征以确保模型的全面性。

最后,研究指出,尽管迁移学习在提升模型性能方面表现出色,但其效果受到数据质量和数据多样性的影响。因此,未来的研究需要进一步探索如何选择数据丰富的源海滩,并结合更多的环境数据,以提高迁移学习在不同地点的应用效果。研究还提到,数据和代码的共享对于促进进一步研究和模型开发具有重要意义,相关数据和代码已上传至公共平台。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号