基于分子结构预测废水处理中微量污染物的去除效果:基准数据与模型

《Environmental Science & Technology》:Predicting Micropollutant Removal in Wastewater Treatment Based on Molecular Structure: Benchmark Data and Models

【字体: 时间:2025年10月24日 来源:Environmental Science & Technology 11.3

编辑推荐:

  微污染物去除预测模型研究:基于监督学习的机器学习模型(随机森林)和MACCS指纹开发,显著优于STPWIN和SimpleTreat等过程模型,准确率R2达0.22,RMSE 0.68,适用于风险评估和绿色化学设计。数据集和代码开源。

  在当今环境保护和化学品安全管理日益受到重视的背景下,预测微污染物在污水处理厂(WWTPs)中的去除情况变得至关重要。这些微污染物通常具有高度的化学稳定性和持久性,容易在常规处理过程中未被有效去除,从而对环境和人类健康构成潜在威胁。因此,建立可靠的预测模型,不仅有助于评估替代方案,还能支持“安全设计”(safe-by-design)策略,使化学品的开发更加环保和可持续。本文介绍了一种基于化学结构和现场监测数据的新方法,用于预测微污染物在污水处理厂中的去除效率,从而为环境科学和化学品管理提供了重要的工具。

传统的污水处理厂模型,如EPI Suite中的STPWIN和SimpleTreat,虽然在风险评估和监管框架中广泛应用,但它们依赖于第一阶降解速率常数,而这一参数在大多数商业化学品中往往难以获得。这些模型通常基于机理基础,能够描述影响化学品在处理过程中命运的各种过程,但在实际应用中,其性能受到数据质量和参数准确性的限制。特别是对于极性物质,预测其去除情况需要对生物转化速率常数有深入的理解,但高质量的实验数据在大多数化学品中仍然稀缺,这使得模型在“安全设计”情境下面临挑战。此外,现有的QSAR(定量结构-活性关系)模型,如EPI Suite的BIOWIN模型,往往依赖于专家判断和小规模数据集进行训练,限制了其预测的广泛适用性。

为了克服这些限制,本文提出了一种基于机器学习(ML)和现场监测数据的统计模型,用于预测微污染物在污水处理厂中的去除情况。研究团队利用了来自澳大利亚、瑞典和瑞士44个污水处理厂的现场监测数据,覆盖了超过1153种独特的化学物质。这些数据通过四个独立的数据集(AMAR、AUS、SNF和SWE2)进行收集,其中部分数据集存在重叠。通过对这些数据集的系统分析,研究发现,尽管分析方法存在差异,但对于相同物质,其突破值(即出水与进水浓度的比值)表现出较高的相似性,表明基于面积的去除计算方法在监测微污染物突破方面是有效的。

研究团队还对不同数据集的化学空间进行了分析,发现这些数据集涵盖了广泛有机化学品的类别,但大多数类别仅被稀疏覆盖。这一发现强调了建立高质量QSAR模型的挑战,同时也凸显了开发此类模型的迫切需求。通过使用随机森林(Random Forest, RF)和基于子结构的指纹(如MACCS),研究团队成功构建了预测模型,并发现这些模型在预测去除情况方面优于现有的基于过程的模型,特别是在缺乏实验数据的情况下。

在模型开发过程中,研究团队采用了严格的数据库筛选标准,以确保预测的准确性。这些标准包括排除仅在少于三个污水处理厂中检测到的物质,排除突破值超过120%的物质,以及排除在污水处理厂中表现出高变异性的物质。通过这些筛选,研究团队最终确定了使用组合I + III(即至少三个污水处理厂数据且在污水处理厂间表现出低变异性的物质)作为最佳训练集,以实现更广泛的适用性和更高的模型性能。此外,研究团队还通过调整模型的超参数和使用SHAP(SHapley Additive exPlanations)方法对模型进行了优化和解释,以增强预测的可解释性和可靠性。

模型的性能评估显示,尽管使用了多种回归算法,如线性回归(MLR)、岭回归(Ridge Regressor)、支持向量回归(SVR)等,但其中随机森林模型在预测能力上表现最佳。特别是在使用MACCS指纹作为特征时,随机森林模型的平均和中位R2值最高,而RMSE值最低。这表明,MACCS指纹在捕捉微污染物去除与化学结构之间的关系方面具有显著优势。此外,研究团队还发现,基于生物转化规则的ePFP指纹在预测突破值方面表现不佳,这可能是因为这些规则过于具体,导致指纹碰撞率较高,从而限制了其适用性。

为了进一步提升模型的性能,研究团队进行了数据集扩展的探索,分析了不同筛选标准对模型性能的影响。结果表明,虽然某些标准(如排除低于检测限的物质)对模型性能的提升有限,但使用更严格的筛选标准(如组合I + III)可以显著提高模型的适用性和预测能力。此外,研究团队还对模型的适用域(Applicability Domain, AD)进行了定义,通过分析预测值与训练集的相似性,发现使用相似性度量(如Tanimoto相似度指数)可以有效识别模型的适用范围,但需要谨慎选择阈值以避免过度限制模型的应用。

模型的最终性能评估显示,尽管经过优化,其在未见数据上的预测能力仍然有限,R2值为0.22,RMSE值为0.68。为了提高预测的可靠性,研究团队采用了一种基于标准差的评估方法,发现当排除预测值标准差较大的分子时,模型的预测能力显著提升。最终,模型在保留预测值标准差最小的25%分子时,R2值达到0.4以上,RMSE值低于0.5,表明模型的预测能力得到了有效提升。

在模型的可解释性方面,研究团队使用了SHAP方法,对模型的决策过程进行了深入分析。结果表明,模型对某些子结构(如卤素、环状结构、含氮基团等)的识别具有较高的准确性,这些子结构对预测突破值有显著影响。例如,卤素的存在通常与较高的突破值相关,而羟基(?OH)的存在则与较低的突破值相关。这与现有的生物降解知识一致,表明模型能够有效识别那些难以降解的化学结构。

为了验证模型的性能,研究团队将其与EPI Suite中的STPWIN工具进行了比较。结果显示,模型的预测误差显著低于STPWIN,RMSE值为0.62,而STPWIN的RMSE值为0.92。这表明,基于化学结构和现场监测数据的模型在预测去除情况方面更具优势,特别是在缺乏实验数据的情况下。此外,模型的预测结果与实际监测数据的吻合度较高,进一步证明了其可靠性。

最后,研究团队将模型应用于超过14,000种在REACH注册的有机化学品,以展示其在实际应用中的潜力。结果表明,50%的化学品被预测为具有较高的去除率(即log B < ?0.7,B < 20%),但其中大多数(88%)的预测置信度较低。这提示,对于预测低去除率但置信度低的化学品,应优先进行实验测试,以验证模型的准确性。同时,模型在预测某些具有高去除率且高置信度的化学品(如羧酸、醇类、醚类和类似鸟嘌呤的代谢物)方面表现良好,这与当前对生物降解性的理解一致。

综上所述,本文提出了一种基于机器学习和现场监测数据的新方法,用于预测微污染物在污水处理厂中的去除情况。该模型在预测能力、适用性和可解释性方面均优于现有的基于过程的模型,特别是在缺乏实验数据的情况下。研究团队还通过开放源代码库和透明的数据集,为未来模型的发展提供了重要的资源和支持。随着更多现场监测数据的积累,这种基于数据驱动的模型有望在环境科学和化学品管理领域发挥更大的作用。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号