利用有限数据预测猴痘疫情:以泰国为例的案例研究

《Interdisciplinary Perspectives on Infectious Diseases》:Forecasting the Monkeypox Outbreak Using Limited Data: A Case Study of Thailand

【字体: 时间:2025年11月26日 来源:Interdisciplinary Perspectives on Infectious Diseases CS4.8

编辑推荐:

  猴痘疫情预测研究基于泰国2022年7月至2024年9月病例数据,采用Poisson和负二项GLM、Holt-Winters、NeuralProphet及堆叠集成模型进行2024年Q4预测。结果显示Holt-Winters RMSE最优(19.68),Stacked ensemble不确定性校准最佳(95%置信度78.57%),但所有模型预测值波动较大,需结合实时监测动态调整防控策略。

  
自2022年全球 monkeypox(猴痘)疫情暴发以来,该疾病逐渐演变为公共卫生领域的重要议题。2024年8月14日,世界卫生组织(WHO)正式将 monkeypox列为国际关注的突发公共卫生事件(PHEIC),标志着其全球威胁性得到广泛认可。在此背景下,泰国作为东南亚首个报告 Clade Ib(B群亚型)变异株的国家,其疫情发展模式引发国际关注。研究团队基于泰国疾控部门(DDC)2022年7月至2024年9月的月度病例数据,构建了多模型预测体系,旨在为东南亚地区乃至全球的 monkeypox 防控提供决策支持。

研究采用的方法论具有显著实践导向特征。首先,数据预处理阶段严格遵循原始报告频率,未进行任何插值处理以避免引入人工周期性。这既保证了数据的时间一致性,又真实反映了疾病监测系统在实际操作中的局限性。其次,模型选择兼顾传统统计方法与前沿机器学习技术:在传统方法中,Holt-Winters 指数平滑算法因其对趋势和季节性的双重适应性成为核心工具;而现代机器学习方法则通过 NeuralProphet 实现复杂时间序列特征的捕捉。值得注意的是,研究特别规避了直接套用 COVID-19 时期的预测模型,转而采用基于计数数据的广义线性模型(GLM),包括泊松回归和负二项回归,以更精准地处理低发病率场景下的计数数据特性。

模型验证环节采用滚动交叉验证法,设置至少12个月的训练窗口进行动态评估。这种模拟真实世界数据更新的过程,有效检验了各模型的适应性和稳定性。结果显示,Holt-Winters 单模型在均方根误差(RMSE)指标上表现最优(19.68),其核心优势在于对平稳趋势的捕捉能力。而负二项回归模型虽然平均绝对误差(MAE)最低(4.04),但高方差导致预测区间覆盖度不足(64.29%),这反映了低发病率场景下计数模型对异常值的敏感性。值得关注的是,Stacked Ensemble(集成预报)在不确定性量化方面展现突出表现,其95%置信区间的实际覆盖率达到78.57%,显著优于单一模型。这种集成优势源于对各类模型预测特征的互补性整合:指数平滑模型擅长捕捉短期波动,而机器学习模型对非线性趋势的适应能力更强。

研究揭示出几个关键实践启示。首先,短期的疫情预测(3个月)需要特别关注模型对历史数据的敏感性。由于 Thailand 在2024年9月前仅报告了少量 Clade Ib 感染病例(月均约6例),基于历史峰值的泊松模型预测值(如10月预测值44例)与基于平稳趋势的Holt-Winters预测值(10月6例)存在数量级差异。这种差异本质上反映了低发病率场景下传统统计模型与机器学习模型在趋势推断上的不同侧重。其次,集成预报在提供量化风险区间方面具有显著优势,其95%置信区间下限始终为零(符合非负计数特性),而上限可灵活调整以覆盖不同风险情景。例如,集成预报对12月的预测区间为0-119例,而负二项模型上限达到192例,这种差异直接关联到应急预案的资源分配策略。

政策应用层面,研究建议建立分层的预警响应机制。对于Holt-Winters模型预测的极低值(如10月6例),可启动常态化监测与快速响应机制;而集成模型预测的较高上限(如12月119例)则提示需保持应急资源储备。特别值得注意的是,泰国作为国际旅游枢纽,11月至次年2月的高峰旅游季与模型预测的12月风险上升存在时间重叠,这要求防控策略具备时空联动性。研究特别强调,当前预测模型未纳入国际旅行流量、疫苗接种率等关键外生变量,后续工作需结合实时交通数据和防控措施效果进行动态校准。

在模型局限性方面,研究揭示了低发病率场景下的共性挑战:泊松回归对过度分散数据的建模偏差、指数平滑方法对突变事件的滞后响应、以及神经网络模型在数据量不足时的过拟合风险。这些技术特性直接影响了预测结果的解释性——例如,NeuralProphet预测值持续为零,反映出小样本条件下机器学习模型的参数调优困难。针对这些缺陷,作者提出了三项改进建议:首先,建议将预测周期从当前3个月逐步扩展至6-12个月,以增强模型对长期趋势的捕捉能力;其次,探索引入实时移动数据作为外生变量,通过动态权重调整提升预测精度;最后,考虑采用贝叶斯融合方法,将不同模型的概率分布进行加权整合,以更科学地量化不确定性。

研究还特别强调公共卫生决策的多元协同性。虽然模型预测值为10-12月月均病例数提供量化参考(Holt-Winters 6例/月 vs. 集成模型40例/月),但实际防控需结合三方面动态信息:① 实时监测数据与预测值的偏差率;② 旅行政策调整对接触率的即时影响;③ 疫苗接种覆盖率与病毒变异特性的关联分析。例如,若12月国际游客量同比激增200%,则需将集成模型预测值上浮30%-50%以反映风险传导。这种多源数据的动态耦合分析方法,正是未来公共卫生预测系统升级的方向。

值得关注的是,研究团队在模型验证阶段创新性地引入了"预测区间-实际覆盖"的评估维度。传统评估指标(如MAE、RMSE)主要反映点预测精度,而通过记录95%和80%置信区间的实际覆盖比例(如集成模型达78.57%),可更直接地评估不确定性量化的可靠性。这种评估方法的引入,为同类研究提供了重要的方法论参考——特别是在处理低发病率、高变异性的新兴传染病时,如何建立稳健的置信区间比追求点预测精度更为关键。

研究最后指出, monkeypox 预测模型需要建立持续迭代机制。建议泰国疾控部门将每月新增病例数据纳入模型更新,采用滚动时间窗(Rolling Time Window)技术,在保留历史学习价值的同时不断优化参数。例如,当实际病例数显著偏离预测区间下限时(如某月病例数突破预测上限50%),系统应自动触发预警升级并重新校准模型。这种自适应系统设计,可有效应对病毒变异和防控措施效果变化带来的不确定性。

综上所述,本研究不仅为泰国 monkeypox 防控提供了量化决策支持工具,更建立了适用于低发病率传染病预测的方法论框架。其核心价值在于揭示了多模型集成在不确定性量化方面的优势,以及传统统计模型与机器学习模型的互补关系。对于全球其他高风险国家(如东南亚、中东等国际旅行枢纽地区),研究提出的"分层预警响应机制"和"动态模型迭代策略",具有重要借鉴意义。未来研究可进一步探索空间流行病学模型的集成应用,将泰国单点预测与区域传播网络模拟相结合,从而提升跨境防控策略的精准性。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号