全球高分辨率超细颗粒物数量浓度数据融合与机器学习预测模型研究

《Scientific Data》:Global high-resolution ultrafine particle number concentrations through data fusion with machine learning

【字体: 时间:2025年11月16日 来源:Scientific Data 6.9

编辑推荐:

  本研究通过融合地面监测站数据与机器学习方法,首次生成了全球1公里分辨率的颗粒物数量浓度(PNC)及超细颗粒物(UFP)数据集。研究人员利用XGBoost模型整合多源环境与人为因素变量,实现了对2010-2019年全球陆地地区年度PNC的高精度预测(R2≥0.9),并采用保形预测框架提供可靠的不确定性区间。该研究填补了全球尺度UFP暴露评估的数据空白,为流行病学研究和空气质量管理提供了关键数据支撑。

  
大气污染每年导致全球数百万人过早死亡,其中颗粒物(PM)是主要的健康风险因素。虽然传统研究多关注PM10和PM2.5,但空气动力学直径小于100纳米的超细颗粒物(UFP)因其能深入呼吸系统、进入血液循环并引发全身性健康影响而日益受到关注。颗粒物数量浓度(PNC)可作为UFP的替代指标,因为尽管UFP对总质量浓度贡献很小,却在颗粒物数量上占主导地位。由于全球范围内UFP监测数据稀缺,且现有模型存在空间分辨率低、区域适用性有限等问题,迫切需要开发高精度的全球PNC和UFP预测模型。
为此,研究人员在《Scientific Data》发表了首个全球1公里分辨率的PNC和UFP数据集。该研究整合了来自EBAS、NOAA-GML数据库的监测数据以及多篇文献中的观测结果,共涵盖155个站点的836个年度观测数据。通过机器学习框架,将人口密度、建成体积、城市化程度、人类住区、道路网络、NO2和PM2.5浓度、黑碳(BC)、一氧化碳(CO)、二氧化碳(CO2)和氮氧化物(NOx)排放、温度、边界层高度(BLH)、降水等多源数据融合,利用XGBoost算法构建预测模型,并采用保形预测框架进行不确定性量化。
研究方法上,团队首先通过数据同化处理将多源异构数据统一到1公里网格,包括对排放数据进行基于人口和建成体积的降尺度处理。模型训练采用90/10分割策略,并通过网格搜索优化超参数。采用空间与时间留一交叉验证(LOOCV)评估模型泛化能力,同时使用SHAP(SHapley Additive exPlatations)方法进行特征重要性分析。
研究结果显示,全球地表年平均PNC浓度从原始环境的数千个/cm3到某些城市中心的超过40,000/cm3,且UFP约占PNC的91%。模型在测试集上R2达到0.9以上,平均相对误差约30%。空间LOOCV的R2为0.77,时间LOOCV的R2为0.87,表明模型具有良好的时空泛化能力。
模型性能部分显示,XGBoost模型在传统训练-测试集分割评估中R2为0.90,平均绝对误差(MAE)为1336 cm?3;10折交叉验证显示R2为0.91,MAE为1025 cm?3。空间LOOCV(整个监测站剔除)的R2为0.77,MAE为2839 cm?3;时间LOOCV(整年剔除)的R2为0.87,MAE为1740 cm?3。模型在不同人口密度区域的性能存在差异:城市化程度高的区域(>1900人/km2)平均PNC为14,992 cm?3,相对误差为29±2%;郊区(250-800人/km2)平均PNC为6360 cm?3,相对误差35±3%;农村地区(<250人/km2)平均PNC为2606 cm?3,但相对误差高达91±3%。
特征重要性分析通过SHAP方法揭示,建成体积是最重要的预测特征,最大SHAP值达0.2,其次是NO2浓度、黑碳排放和PM2.5浓度。值得注意的是,PM2.5在高值时对预测呈轻微负影响(SHAP值约-0.025),反映了颗粒物数量与质量浓度控制机制的不同。气象特征中,边界层高度(BLH)影响最大,呈现与PNC的负相关关系,低BLH值对应正SHAP值,表明浅边界层导致污染物积累。降水同样显示负相关,反映了湿沉降的去除作用。温度的影响则较为复杂,低温和高温都可能通过不同机制影响PNC。道路网络特征的影响相对较弱(SHAP值<0.025),其影响可能已被NO2和黑碳等交通相关代理变量所覆盖。
不确定性分析表明,数据不确定性主要来自监测站点空间覆盖不均,特别是在非洲、南美洲和亚洲部分地区的低中收入国家。模型相关不确定性通过XGBoost的集成结构和正则化机制得到控制,而预测不确定性则通过保形预测框架量化,无需假设数据正态分布,提供可靠的覆盖区间。
研究结论强调,该研究首次提供了全球1公里分辨率的PNC和UFP数据集,填补了本地尺度土地利用回归模型与粗分辨率化学传输模型之间的关键空白。机器学习框架成功整合了有限的地面测量数据与多种辅助数据,XGBoost模型能够捕捉复杂的非线性关系。保形预测框架提供了可靠的统计不确定性量化,支持暴露评估和健康影响研究。数据集的高空间分辨率使其能够与同样基于1公里网格的全球人口数据结合,支持精细化的健康评估研究。该研究的局限性主要在于监测数据的地理分布不均,未来需要扩大监测网络覆盖范围,特别是在目前代表性不足的地区,以进一步提高模型的准确性和泛化能力。
该研究的全球PNC和UFP数据集可通过Zenodo平台获取,包含2010-2019年每年的NetCDF格式文件,提供PNC值、UFP估计值和95%覆盖区间,采用创作共用署名4.0国际许可(CC BY 4.0)分发。相关代码已在GitHub平台开源,采用MIT许可证。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号