不同类型的全氟和多氟烷基物质暴露通过肾功能和代谢状态对高血压风险的差异性影响
《Environment International》:Differential impact of per- and polyfluoroalkyl substances exposure on hypertension risk by kidney function and metabolic status
【字体:
大
中
小
】
时间:2025年11月26日
来源:Environment International 9.7
编辑推荐:
机器学习在极端高温健康影响建模中的应用研究。系统回顾纳入25篇论文,发现高收入国家主导研究,常用随机森林、梯度提升等模型,温度变量(最大/平均/最小)和相对湿度为主要预测因子,但存在数据稀缺、模型可解释性不足等问题。建议未来研究多健康终点、深度学习及跨区域数据。
极端高温对健康影响的机器学习建模研究进展与挑战
1. 研究背景与意义
气候变暖导致极端高温事件频发,全球每年因高温相关疾病死亡人数超过50万,预计到本世纪末死亡率可能增长6-12倍。现有研究多采用传统统计模型,而机器学习(ML)因其处理复杂非线性关系的能力,在预测健康影响方面展现出潜力。本研究通过系统综述2014年至2024年间PubMed、Scopus和Web of Science数据库的25篇相关文献,首次全面评估ML模型在极端高温健康效应建模中的应用现状。
2. 文献筛选方法
研究采用改良的系统性综述方法,通过三阶段筛选:标题初筛排除802篇不相关文献,摘要复筛排除105篇不符合条件文献,最终通过全文评审确定25篇有效研究。数据库覆盖2014-2024年间发表的英文论文,重点排除灰色文献和未验证模型研究。 snowball法补充检索了文献引用网络中的6篇相关研究。
3. 研究特征分析
3.1 区域分布特征
研究呈现显著的地域集中性,日本(7篇)、加拿大(6篇)、韩国(3篇)和美国(3篇)构成主要研究区域。其中加拿大团队贡献了4篇连续研究,日本学者开发了3套特色模型。特别值得注意的是,针对中国的研究仅占样本量的4%,非洲等中低收入国家的研究尚未开展。
3.2 时间跨度与数据规模
研究周期覆盖1990-2023年,数据量从100到100万条不等。多数研究(76%)采用10年内的日尺度数据,空间分辨率主要集中于城市层面(占82%)。最长研究周期达39年(Boudreault团队2019-2023),但跨区域研究仅占12%。
3.3 健康结局类型
研究重点集中在两大健康指标:
- 全因死亡率(13篇)
- 门诊急诊量(6篇)
新兴方向包括急救响应(5篇)和心理健康(1篇)。特别值得关注的是日本学者开发的年龄分层预测模型(Oka等2021),将65岁以上人群死亡率预测精度提升至89%。
4. ML模型应用现状
4.1 模型类型分布
随机森林(RF)以16篇应用率居首,梯度提升树(GBM)系列占28%,深度学习模型(LSTM/MLP)占20%。传统模型(GLM/DLNM)作为基准参照出现频率为23%。研究显示,当考虑极端高温事件时,RF模型在温度滞后效应预测上优于其他算法(RMSE降低49.7%)。
4.2 关键变量选择
温度变量组合占据主导地位(Tmax+RH+WS),其中:
- 温度指标:最大温(19次)、平均温(15次)、相对温度(7次)
- 环境参数:湿度(13次)、风速(10次)
- 污染指标:PM2.5(5次)、臭氧(4次)
值得关注的是,日本团队提出的"相对温度"指标(T相对值)在6项研究中表现最佳,尤其在预测热射病时敏感性提升32%。
4.3 验证方法缺陷
研究存在显著方法学缺陷:
- 87%未明确说明超参数优化方法
- 64%未报告模型验证的具体标准
- 仅9%研究进行极端高温事件专项验证
典型案例是Boudreault团队(2023)的蒙特利尔研究,其模型在常规验证中R2达0.91,但在2019年极端高温期间预测误差骤增至23%。
5. 关键发现与启示
5.1 模型性能差异
- RF在温度滞后效应预测中表现最佳(MAE=15.2 vs GLM的18.7)
- 深度学习模型(LSTM)在空间连续性预测上提升显著(RMSE降低37%)
- 优化模型性能的关键在于:
1) 合理选择预测周期(5-14天最佳)
2) 构建温度复合指标(如HI指数)
3) 引入社会经济变量(如NDVI植被指数)
5.2 研究空白分析
主要局限体现在:
- 数据维度单一:92%研究仅使用气象数据,缺乏多源异构数据融合
- 群体覆盖不足:65岁以上人群仅占样本量的28%,儿童群体研究缺失
- 地域代表性偏差:北美国家占比68%,非洲国家研究空白
- 时间跨度局限:89%研究周期短于20年,难以捕捉气候趋势变化
5.3 技术瓶颈突破
日本团队(Oka等2024)通过引入:
- 空间卷积网络(SCN)处理地理数据
- 注意力机制捕捉关键预测因子
- 动态权重调整算法
将热射病预测准确率提升至92%,同时将模型解释性提高40%。
6. 未来研究方向
6.1 数据层面创新
- 构建多源异构数据集:整合气象数据(时空分辨率≥1km×1h)、社交媒体数据(文本/图像)、医疗记录(电子病历/ICU数据)
- 开发全球共享数据库:参考Mora等(2017)的跨区域研究,建议建立覆盖54国1150个地点的开放数据平台
6.2 模型架构优化
- 发展时空混合模型:结合CNN处理空间特征(如UHI指数)与LSTM处理时间序列
- 构建多任务学习框架:同步预测死亡率、急诊量、热射病等多元健康结局
- 引入可解释AI技术:采用SHAP值+LIME解释组合,提升模型可信度
6.3 实践应用路径
- 建立三级预警系统:基于模型输出的风险等级(低/中/高)实施差异化响应
- 开发决策支持平台:集成实时气象数据与历史健康数据(如Google Health的AI预警系统)
- 构建脆弱性指数:整合人口结构(65+/儿童比例)、建筑密度(>5m2/m人)、绿地覆盖率(NDVI>0.4)等参数
7. 政策建议
- 建立跨学科研究联盟:包含气候学家(30%)、数据科学家(25%)、公共卫生专家(45%)的协作机制
- 制定ML模型开发标准:包括数据预处理规范(如缺失值填补方法)、模型验证流程(极端事件测试)、可解释性要求
- 完善政策转化机制:开发包含决策树、动态阈值调整的智能预警系统(如加拿大魁北克省2023年试行的HMP-ML系统)
8. 研究局限与展望
当前研究存在三大瓶颈:
1) 数据孤岛现象:仅12%研究实现多机构数据共享
2) 模型泛化能力不足:跨区域验证成功率仅38%
3) 实时应用滞后:现有模型平均响应延迟达24小时
未来突破方向:
- 开发边缘计算架构:实现市/区级实时预测(如东京奥运会期间的HRI预警系统)
- 构建数字孪生城市:整合建筑能耗、人口流动等微观数据(德国2024年试点项目)
- 建立自适应学习系统:根据城市特异性调整模型参数(加拿大魁北克省2025年规划)
本研究为全球极端高温健康研究提供了重要参考框架,特别在模型可解释性、跨区域适用性、多源数据融合等方面指明了发展方向。建议设立国际联合实验室(如IPCC ML协作组),制定统一的模型评估标准,并建立包含500+城市的全球基准测试集,以推动该领域研究向实际应用转化。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号