关于环境中化学污染物生物转化数据的公正有效沟通
《Environmental Science & Technology Letters》:FAIR and Effective Communication of Data on Chemical Contaminant Biotransformation in the Environment
【字体:
大
中
小
】
时间:2025年10月24日
来源:Environmental Science & Technology Letters 8.8
编辑推荐:
化学污染物生物转化数据标准化与PFAS应用研究。本文提出BART模板和enviPath数据库,通过标准化格式(SMILES结构、反应路径表、实验元数据)解决生物转化数据碎片化问题,并以PFAS为例展示如何整合多研究数据,揭示PFOA和PFHxA的15和8种前体物质。强调FAIR原则在机器学习模型训练中的重要性,需完善实验条件参数报告,推动环境风险评估智能化。
人类活动产生的化学物质及其转化产物在环境中的出现频率正在上升,其中持久性是造成化学风险的关键因素。因此,开发能够预测生物转化产物和降解动力学的方法对于监管机构识别潜在持久性化学物质至关重要,从而防止其进入市场和环境。利用机器学习和人工智能是解决这一问题的有前景的方向。然而,预测模型的质量取决于用于训练它们的数据集,而目前关于生物转化路径和动力学的高质量数据集仍然十分有限。
本文旨在强调有效传达环境中的化学污染物生物转化数据的重要性,描述在可发现、可访问、可互操作和可重用(FAIR)格式中报告生物转化路径的具体要素,并提供一个标准化工具,帮助研究人员以更高效的方式报告生物转化数据。通过展示我们开发的报告工具如何应用于全氟烷基和聚氟烷基物质(PFASs)的案例,我们希望构建一个PFAS生物转化数据库,从而说明研究界如何从标准化的生物转化数据报告中受益。
生物转化过程的研究是理解化学污染物在环境中的行为和影响的重要组成部分。许多化学污染物在进入环境后,会通过生物过程发生转化,生成可能比其前体更具毒性的生物转化产物。尽管过去几十年中已有大量关于环境化学污染物生物转化的研究,但准确预测这些转化产物及其降解动力学仍然面临挑战。然而,这类预测模型对于工业界和监管机构来说都是迫切需要的,以避免在后期发现具有严重环境问题的案例,如全氟烷基酸(PFAAs)从全氟和多氟烷基物质(PFASs)的降解过程中累积。
为了实现可靠的预测模型,需要大量、高质量且可被机器读取的训练数据集,其中包含详细的实验参数。然而,目前可获得的数据集往往在规模和化学空间覆盖范围上存在局限,例如仅限于农药或碳氢化合物,缺乏对物理、化学和生物条件的描述,或者仅报告降解动力学而未提供转化路径信息。这类数据对于理解环境参数如何影响生物转化过程以及开发相关模型至关重要。
随着高分辨率质谱技术的普及和监管机构对危险转化产物纳入化学风险评估的压力,生物转化数据在科学文献中变得越来越多见。同时,研究界对污染物生物转化的兴趣也在迅速增加,这促使了更多关于生物转化路径和动力学的数据集的形成,可用于元分析和模型开发。然而,研究结果通常以非机器可读的方式报告,这成为数据利用的主要障碍。
为了解决这一问题,环境科学界应采用FAIR数据格式来报告生物转化数据。FAIR数据原则已被广泛接受,并在多个学科和机构中得到应用,包括欧洲委员会和美国国家卫生研究院。随着公开数据的不断增加,这些原则将继续被鼓励。本文强调了建立描述化学污染物生物转化路径和动力学的FAIR数据集的紧迫性,并提供了用于报告生物转化数据的标准化工具。我们讨论了数据科学家和生物转化模型开发者的需求,以及实验人员在数据报告过程中面临的挑战,并提出了一个标准化的数据共享方法,包括一个公开可用的模板。
我们提供的模板为研究人员提供指导,以共享化学结构、图形反应网络和实验元数据,从而确保报告的生物转化数据具有更高的实用性和可重用性。为了突出该工具在高效和系统数据报告中的应用,我们使用它来收集全氟烷基物质生物转化的数据,并将这些数据发布在公开的在线平台enviPath上。通过enviPath-PFAS数据包,我们展示了如何聚合不同研究中的数据,并回答有关PFASs环境命运的相关问题,同时指出了重要的数据空白。此外,我们认识到社区驱动努力的重要性,邀请研究界参与我们生物转化报告工具的开发,并以推荐的格式公开分享数据。
我们的建议符合化学信息学标准,并为未来对生物转化路径和动力学的分析提供了基础。最后,该模板可用于在enviPath平台发布生物转化数据,从而实施和推广FAIR原则,使生物转化研究领域的数据使用和共享更加高效。
生物转化路径的报告对于理解化学污染物在环境中的转化过程至关重要。传统上,化学污染物的生物转化路径报告通常包括由箭头连接的反应物和产物化合物的二维图像。这种视觉表示有助于读者理解分子结构在每一步反应中的变化,但这些图像通常难以转换为机器可读的格式。由于文献中存在大量这样的转化路径图像,从中获得全面的环境生物转化过程概述变得极为困难。1995年,明尼苏达大学的生物催化/生物降解数据库是首次系统整理生物转化信息的尝试,该数据库后来演变为enviPath平台。
enviPath团队通过手动转录文献和监管文件中的转化路径和动力学信息,持续开发数据库。这一过程耗费大量时间和精力,阻碍了研究人员获取最新转化信息。尽管未来人工智能(AI)技术可能实现从研究报告中自动提取转化路径信息,但这些工具仍需高质量、真实的数据集用于模型训练和验证。因此,标准化的生物转化数据报告对于未来的研究仍然具有重要意义。
我们建议,未来的研究在发表时应同时包含至少一张生物转化路径的图像和填写完整的BART模板。图像表示的转化路径应清晰地标注二维前体和转化产物结构,作为有向图中的节点。如果转化路径涉及前体作为同系系列(如结构相似的全氟烷基物质,具有不同氟化碳链长度),则可以使用化学公式(如CF?)来简写重复单元,同时确保转化位置仍然清晰可见。然而,仅使用文本表示的化学公式难以被机器读取,因此应尽可能完整地绘制标准的二维化学结构图。化合物之间应使用箭头连接,表示反应方向。每条边应尽可能代表单一的酶促生物转化,并可以在必要时使用双箭头标注可能的多步骤反应。如果无法通过质谱技术完全解析转化产物结构,应根据MS2数据报告分子中可能发生转化的部分,并用方括号标注相关结构变化(如+O)。
我们还建议,未来研究中报告的生物转化路径图像应以有利于光学化学结构识别(OCSR)提取的格式存储。OCSR工具的输出质量严重依赖于图像质量和内容模式,但目前尚无统一的标准来指导如何以最佳方式展示反应方案。为了弥合这一差距,我们提出了高层次的指导原则,使研究人员能够快速评估已发表的生物转化图是否适合OCSR提取,并指导作者在构建OCSR友好的转化路径图像时采用最佳实践。
元数据,即“关于数据的数据”,在生物转化路径和降解动力学的研究中具有重要意义。本文讨论了两种类型的元数据:实验元数据和反应元数据。实验元数据包括关于实验测试系统以及环境系统的信息,而反应元数据则包括关于观察到的生物转化的信息。实验元数据对于理解生物转化研究中不同微生物群落的影响至关重要,因为这些群落的组成、功能和生理状态差异会影响生物转化研究的观察结果,包括转化产物和降解速率常数。此外,实验条件(如温度、pH、生物量浓度、固体与水的比例或实验持续时间)的变化也会导致测试结果的差异。
尽管OECD提供了详细的关于有机化学物质在水、水-沉积物和土壤中降解评估的报告要求,但许多研究人员在他们的科学论文中并未报告这些关键参数。这种不一致性可能导致元数据集的稀疏性和不确定性。因此,我们开发的标准化、机器可读的报告模板(BART)包含了与OECD测试指南和生物转化数据报告专家知识对齐的预选参数。这些参数对于生物转化实验的环境条件报告至关重要,并在下文中提供了关键参数的列表。
在生物转化路径报告中,每条连接反应物和产物的反应应以观察到的结构变化的合理性为依据进行注释。如果有酶促研究支持所提出的反应,应提供相关证据。我们鼓励作者将观察到的反应归类为常见的酶促转化类型(如水解、还原脱卤)。如果未来实验提供关于负责观察到的生物转化的酶的信息,应包括酶的数据库标识符(如Rhea、KEGG、EC编号、UniProt)。
在生物转化动力学的报告中,若假设单一级数动力学,应报告主要的生物转化速率(k)或半衰期(DT??),这些参数描述了物质从测试系统中随时间消失的过程,并且可以相互转换。对于监管土壤和水-沉积物生物转化研究,通常报告半衰期(DT??),而k是用于活性污泥生物转化实验的首选参数。在某些活性污泥研究中,半衰期是通过将观察到的k除以总悬浮固体(TSS)浓度来获得的。对于水-沉积物实验,可以分别报告水相和沉积物相的半衰期,以及整个系统的半衰期。半衰期和速率常数是从母体化合物的浓度-时间序列中计算得出的。
在报告动力学信息时,模型假设和参数应被记录,包括模型拟合的质量和校正因子(如生物量、吸附、非生物过程)。如果合适,应在报告值旁边提供误差估计,如标准偏差(± 误差,一个标准偏差)。特别是在水-沉积物研究中,报告的半衰期应明确指出是指从水相、沉积物相还是整个系统中消失的。动力学信息可以通过BART模板的“Kinetics_Confidence”选项卡进行报告,其中可以输入半衰期和速率常数,并记录用于计算每个值的模型、任何校正因子以及模型拟合的R2值。我们还建议,将用于报告动力学信息的浓度-时间序列以表格格式(CSV或Excel文件)提供在科学论文的补充信息中,以确保研究结果的可重复性。
标准化的生物转化数据报告能够为研究界提供重要的信息,使生物转化研究更加系统化。本文以全氟烷基物质(PFASs)为例,说明了标准化生物转化数据报告对理解其环境命运的积极作用。尽管PFASs本身包括全氟烷基和聚氟烷基物质,但理解这些子类之间的转化细节对于构建更精确的转化路径和动力学预测模型至关重要。这些信息可以进一步用于支持受污染场地的评估,预测在何种化学结构和条件下,高度持久的PFAAs的形成可能被预期。
近年来,研究界对PFASs生物转化潜力的关注不断增加,这是由于PFASs在环境中的广泛存在以及对受污染场地中PFASs及其前体的空间和时间分布进行表征的需要。随着科学文献中关于这一主题的研究增多,系统化和高效地整合新出现的生物转化数据变得尤为必要,以确保对PFASs在环境中的命运的理解能够随着新转化路径的发现而保持最新。然而,常规的综述文章虽然整合了生物转化数据以发现PFASs转化趋势,但这些信息往往难以更新或共享,无法满足未来机器学习分析和模型训练的需求。例如,Choi等人通过手动总结和可视化观察到的PFASs生物转化路径,发现N-脱烷基化是关键的生物转化过程,但这并未提供可用于提取或修改的格式,使得数据集难以用于训练转化路径预测模型。为了应对这一问题,我们从科学文献中提取了PFASs的生物转化数据,并将其重新整理为BART格式,上传至enviPath平台,以创建一个公开的、符合FAIR原则的PFASs生物转化数据库。
enviPath-PFAS数据库展示了标准化生物转化数据报告的优势。通过搜索enviPath-PFAS,可以找到与PFOA和PFHxA相关的12和23条转化路径,分别对应8和15种独特的前体。这些信息可以被理解为包含所有记录前体和转化路径的转化图,用于预测PFOA和PFHxA的形成。enviPath-PFAS数据库不仅为研究界提供了宝贵的资源,还展示了如何系统化整合不同研究中的数据,从而更好地理解PFASs的环境命运。
此外,PFOA和PFHxA属于PFASs的同系系列,因此我们预期它们的形成路径会有相似的生物转化反应。这表明,在研究PFAA形成时,应考虑完整的转化路径,以避免遗漏重要的前体。随着生物转化研究的深入,更多的数据将被收集和整合,以构建更全面的数据库。我们鼓励研究界通过使用BART模板,为enviPath-PFAS数据库贡献更多数据,并确保这些数据以推荐的格式公开共享。
未来,生物转化数据报告标准的进一步发展应由研究界共同推动。因此,我们将在GitHub上发布推荐的报告模板,邀请科学界成员提供反馈和建议,以不断优化模板。我们希望通过这一工作,提高对以标准化和机器可读格式共享生物转化数据重要性的认识,从而为构建高质量的生物转化数据库及相关下游应用(如生物转化预测)奠定基础。我们相信,有效的数据共享策略有助于防止未来可能产生持久性转化产物的化学物质进入市场和环境。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号