基于机器学习模型预测埃塞俄比亚农村孕妇医疗服务可及性及影响因素研究
《Scientific Reports》:Optimizing machine learning models for predicting health service access and determinants among pregnant women in rural Ethiopia
【字体:
大
中
小
】
时间:2025年11月19日
来源:Scientific Reports 3.9
编辑推荐:
本研究针对埃塞俄比亚农村孕妇医疗服务可及性差的问题,采用七种机器学习算法(包括Gradient Boosting、Random Forest等)对2016年EDHS数据进行分析。结果显示Gradient Boosting模型预测性能最佳(AUC=81.40%),发现财富状况、媒体暴露、教育水平等是关键影响因素。研究为资源有限地区制定精准干预策略提供了数据支持。
在埃塞俄比亚广袤的农村地区,每天都有无数孕妇面临着一个严峻的现实:获取基本医疗服务犹如跨越天堑。这个东非国家虽然在过去几十年里医疗卫生事业取得了显著进步,但孕产妇死亡率依然居高不下。数据显示,埃塞俄比亚的孕产妇死亡率高达每10万活产900例,这一数字是撒哈拉以南非洲地区平均水平的14倍以上。更令人担忧的是,仅有32%的孕妇能够获得至少四次产前检查服务,而机构分娩率仅在26%至32.5%之间徘徊。
这些冰冷数字背后,是无数农村孕妇面临的实际困境:她们可能因为交通不便而无法及时到达医疗设施,因为经济拮据而无法承担医疗费用,因为文化传统而需要获得家人许可才能就医,甚至因为信息闭塞而不知道何时应该寻求帮助。传统的统计分析方法往往难以捕捉这些因素之间复杂的非线性关系,这就迫切需要更先进的分析方法来揭示影响农村孕妇医疗服务可及性的关键因素。
在这项发表于《Scientific Reports》的研究中,由Abdulaziz Kebede Kassaw领导的研究团队开创性地将机器学习技术应用于埃塞俄比亚农村孕妇医疗服务可及性的预测研究。研究人员利用2016年埃塞俄比亚人口与健康调查(Ethiopian Demographic and Health Survey, EDHS)的数据,对885名农村孕妇的医疗可及性状况进行了深入分析。
研究团队采用了七种监督机器学习分类器进行比较,包括梯度提升(Gradient Boosting)、随机森林(Random Forest)、K-最近邻(K-Nearest Neighbors, KNN)、决策树(Decision Tree)、支持向量机(Support Vector Machine, SVM)、逻辑回归(Logistic Regression)和朴素贝叶斯(Naive Bayes)。为了确保模型的可靠性,研究还采用了SMOTE(Synthetic Minority Over-sampling Technique)方法处理数据不平衡问题,并利用Boruta算法进行特征选择,最后通过SHAP(SHapley Additive exPlanations)分析来解释各个特征对预测结果的贡献度。
研究基于2016年EDHS的横断面调查数据,采用两阶段分层抽样方法获取全国代表性样本。使用Boruta算法进行特征选择,SMOTE方法处理数据不平衡问题,应用七种机器学习算法建立预测模型,通过Optuna框架进行超参数优化,并采用SHAP分析进行模型解释。
研究发现,在分析的12个变量中,有5个被确定为重要预测因子:财富状况、媒体暴露、地区、教育水平和饮酒情况。这些因素在预测孕妇医疗服务可及性方面发挥着关键作用。
在所有测试的机器学习算法中,梯度提升(Gradient Boosting)表现最为出色,其AUC(Area Under the Curve)达到81.40%,准确率为79.55%。其他模型的AUC分别为:SVM(75.10%)、决策树(73.90%)、逻辑回归(73.80%)、随机森林(73.10%)、KNN(72.50%)和朴素贝叶斯(72.2%)。这一结果表明,梯度提升算法在预测医疗服务可及性方面具有明显优势。
通过SHAP分析,研究人员能够量化各因素对预测结果的影响程度。结果显示,地区、财富状况、媒体暴露、职业状况、教育状况和饮酒情况是影响医疗服务可及性的最重要因素。
Beeswarm图进一步揭示了各预测因子与结果变量之间的关系。图中红色和蓝色点分别表示预测因子的较高值和较低值,红色点与较高的医疗服务可及性可能性相关,而蓝色点则反映较低的概率(保护性效应)。
瀑布图分析则从个体层面解释了模型的预测机制。分析显示,家庭财富状况最高、有媒体暴露史、不饮酒以及居住在阿姆哈拉地区等因素对孕妇医疗服务可及性具有保护作用(负面影响因素),而缺乏正规教育则显著影响医疗服务可及性。
这项研究的重要意义在于它首次系统比较了多种机器学习算法在预测埃塞俄比亚农村孕妇医疗服务可及性方面的性能,并确定了梯度提升为最优模型。研究发现,较高的家庭财富、居住在阿姆哈拉地区、媒体暴露和不饮酒是医疗服务可及性的保护因素,而缺乏正规教育则是主要障碍。
从公共卫生政策角度看,这些发现为制定针对性干预措施提供了科学依据。例如,针对财富差异的影响,政策制定者可考虑通过经济赋能项目帮助妇女获得可持续收入;针对媒体暴露不足的问题,可扩大健康传播策略,特别是在服务不足地区通过广播、电视、移动平台和社区外展项目进行健康宣教;针对教育水平低的问题,应强调促进女童教育,将健康教育纳入课程,并通过社区项目提高健康素养。
该研究的创新之处在于它将先进的机器学习技术与公共卫生研究相结合,克服了传统统计方法在捕捉复杂非线性关系方面的局限性。通过SHAP分析,研究不仅提供了预测模型,还增强了模型的可解释性,使决策者能够理解各个因素的具体影响机制。
这项研究为资源有限 settings 下的 maternal health(孕产妇健康)服务改善提供了重要见解,展示了人工智能技术在解决 health disparities(健康差异)方面的潜力。研究结果支持开发基于人工智能的应用程序,将梯度提升模型纳入其中,以更准确地预测医疗服务可及性,从而为针对性干预措施的制定提供数据驱动决策支持。
随着机器学习技术在公共卫生领域的应用日益广泛,这类研究有望为全球范围内改善 maternal and child health(孕产妇和儿童健康) outcomes(结局)提供新的思路和方法。特别是在资源有限的农村地区,这种数据驱动的方法可能成为缩小健康差距、实现健康公平的有力工具。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号