基于机器学习的全球高血压患病率宏观影响因素识别及性别差异研究
《BMC Public Health》:Machine learning identification of influencing factors of global Nation-Level hypertension prevalence
【字体:
大
中
小
】
时间:2025年11月19日
来源:BMC Public Health 3.6
编辑推荐:
本研究针对传统线性模型难以捕捉高血压复杂病因的局限,构建了一个结合XGBoost、SHAP和Bootstrap重采样的可解释机器学习框架。通过分析190个国家(1990-2019年)的面板数据,发现年均降水量(PRC)、医院床位(HOS)、肥胖患病率(OB)和安全管理的饮用水是可显著影响全球高血压患病率的宏观决定因素,且影响因素存在显著的性别异质性。该研究为制定精准公平的全球公共卫生干预策略提供了新视角。
高血压,作为全球非传染性疾病的核心风险因素,至今仍是导致相关死亡的首要原因,影响着全球超过10亿人。尤其在中低收入国家,高血压的负担更为沉重,控制率低且心血管疾病死亡率高。尽管学术界对高血压的病因已有广泛探讨,涵盖了微量元素缺乏或过量摄入、肥胖、饮酒、吸烟、缺乏运动等多种因素,但现有研究往往忽视了宏观层面因素(如自然地理和社会经济发展)的影响,且缺乏对性别差异的比较分析。高血压患病率受到多维复杂因素交互作用的影响,而传统的线性回归模型难以有效捕捉这些非线性关系。面对全球高血压患病率的复杂性及干预的紧迫性,郑浩雷等研究人员在《BMC Public Health》上发表了一项研究,旨在建立一个更精确、可解释的分析框架。
为开展研究,作者整合了世界卫生组织和世界银行的多源数据,构建了一个覆盖190个国家、1990-2019年的全球国家级面板数据集。研究纳及自然地理、个人行为习惯、社会经济状况和医疗条件四个维度的18个关键自变量。核心技术方法包括:采用可解释的机器学习框架,结合XGBoost回归模型进行性别分层建模(分为总人群、男性和女性三组);利用SHAP(Shapley Additive exPlanations)值量化各特征变量对模型预测结果的贡献度,揭示影响因素的重要性、方向和非线性关系;通过Bootstrap重采样(1000次)验证模型结果的稳健性,计算特征重要性的95%置信区间;在研究过程中,还采用了贝叶斯优化结合五折交叉验证来调整模型超参数,以防止过拟合。
研究发现,全球高血压患病率在1990年至2019年间呈现出明显的空间异质性。1990年,俄罗斯、东欧和中亚国家为高患病率地区,而西欧和北美多为中低患病率。至2019年,北美和部分东欧地区患病率有所下降,但南美和部分非洲地区患病率依然居高不下,表明高血压高发区域发生了转移。过去30年间,全球高血压患病率整体呈上升趋势,空间分布呈现“欧美低,亚非拉部分地区高”的格局。
进一步分析1990年至2019年的高血压患病率增长率发现,其空间分布也存在显著异质性。在亚洲(如中国)、东南亚(如泰国、缅甸、印度尼西亚)、非洲部分地区和部分南美国家,高血压患病率增长率处于较高范围,反映出这些地区过去30年患病率显著上升。相比之下,在北美和欧洲部分地区,增长率为负值或处于低正增长范围。
Spearman相关系数分析显示,PM2.5、人均酒精总消费量(ALC)、当前烟草使用流行率(SMK)、肥胖患病率(OB)、城市人口百分比(URB)、人类发展指数(HDI)和医院床位(HOS)与高血压患病率呈显著正相关。年均降水量(PRC)、营养不良流行率(MAL)、基尼系数(GIN)、居住在贫民窟的人口比例(SLM)和植被覆盖率(VEG)则呈显著负相关。人均GDP(PGDP)、政府卫生支出(GHE)、安全管理的饮用水(WAT)、安全管理的卫生服务(SAN)和全民健康覆盖(UHC)与高血压患病率无显著线性关联。多重共线性检验(VIF均小于10,容忍度均大于0.1)表明变量间不存在严重多重共线性。
XGBoost模型在训练集上表现出极高的拟合优度(R2均高于0.99),在测试集上也保持了高性能(R2在0.94至0.96之间),训练集与测试集R2差异极小(0.03至0.05),表明模型成功避免了过拟合,具有高精度的预测能力(测试集RMSE在1.340至1.484之间,MAE在0.855至0.870之间)。
基于SHAP值的特征重要性分析揭示了显著的组间差异。在总人群中,PRC是核心影响因素,HOS、OB和WAT等是协同驱动因素。在女性群体中,OB占据主导影响地位,其次是PRC、PGDP和GHE。在男性群体中,HOS的影响远超其他因素,成为决定性驱动因素,其次是PRC、OB、VEG和ALC。
SHAP特征分布小提琴图进一步展示了各变量对不同人群高血压患病率预测结果的影响方向和程度。例如,较高的OB值会显著增加预测的高血压风险,且在女性群体中表现出比其他群体更强的正效应。相反,PRC值的升高与高血压患病风险的显著降低相关。PM2.5、ALC、VEG和WAT在不同群体中表现出异质性效应。
SHAP依赖图揭示了关键变量与高血压患病率预测模型之间的依赖关系,以及变量间的交互效应。总人群关注PRC、HOS、OB和WAT,显示了气候、医疗、生活方式等多因素的协同效应,其中水质和空气质量的交互威胁尤为突出。女性群体显示了经济水平和政府投入对女性高血压风险显著的缓冲效应。男性群体则反映了“医疗资源与环境暴露”之间的强关联,以及植被覆盖与污染交互影响的特异性。
Bootstrap重采样结果进一步证实了SHAP分析的发现。PRC、HOS和WAT在总人群中特征重要性最高,且其95%置信区间不包含0,表明影响显著且稳健。PRC在女性群体中的重要性尤为突出,HOS在男性群体中的重要性则具有压倒性优势,且置信区间较窄,表明其在男性高血压患病率中发挥着高度稳定的核心作用。此外,PGDP和GHE在女性群体中表现出更高的重要性,而OB和ALC在男性群体中的重要性相对增加。
本研究通过整合XGBoost、SHAP和Bootstrap重采样技术,全面分析了全球高血压患病率的影响因素,并首次量化了这些因素在总人群、女性和男性群体中的差异效应。研究结论指出,年均降水量(PRC)和安全管理的饮用水(WAT)是影响全球高血压患病率的普遍重要因素,表明自然地理背景条件和社会经济因素是解释国家间高血压发病率差异的关键视角。肥胖患病率(OB)、人均GDP(PGDP)和政府卫生支出(GHE)对女性高血压的影响更为突出,而医院床位(HOS)、植被覆盖率(VEG)和酒精消费(ALC)与男性高血压的关联性更强。这些发现不仅为理解高血压复杂病因提供了新的见解,也强调了在公共卫生干预和政策制定中充分考虑性别特异性策略的必要性,以实现精准有效的全球高血压控制目标。该研究建立的透明、可解释的分析框架,为从宏观环境和性别分层角度制定公平的资源分配和干预策略提供了重要科学依据。研究的局限性在于使用的是宏观年度数据,未纳入微观临床数据和个体行为细节,未来研究可考虑整合个体层面数据进行更深入的动态机制探索。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号