基于生成式预训练Transformer的SDS文本识别自动化:提升职业健康风险评估效率的新路径

《Annals of Work Exposures and Health》:Implementing generative pretrained transformer models for text recognition tasks in safety data sheets

【字体: 时间:2025年11月25日 来源:Annals of Work Exposures and Health 2.1

编辑推荐:

  本研究针对企业手动更新安全数据表(SDS)信息至在线化学品库存效率低下的问题,开发了一种基于大语言模型(LLM)的自动化文本提取管道。通过GPT-3.5-turbo和GPT-4-omni模型对SDS中公司名称、产品名称、危害声明(H-phrases)等关键变量进行提取,经过三次迭代优化后平均准确率达到0.83。该研究为 occupational safety 领域提供了半自动化数据管理方案,显著提升了风险评估效率。

  
在现代化工作场所中,化学品的广泛使用带来了严峻的职业健康挑战。根据欧盟REACH法规要求,企业必须为每种化学产品配备安全数据表(SDS),这些长达16部分的文件包含了从成分信息到应急处置的关键数据。然而现实情况是,随着产品迭代加速,大型企业往往需要管理数百份SDS文档,传统的人工录入方式不仅耗时耗力,更可能导致信息更新滞后,形成风险评估的漏洞。
正是面对这样的行业痛点,来自荷兰应用科学研究院(TNO)和比利时IDEWE职业健康研究所的联合团队开展了一项创新研究。他们敏锐捕捉到大语言模型(LLM)在自然语言处理领域的突破性进展,尝试将这项技术应用于SDS文档的智能化处理。这项发表于《Annals of Work Exposures and Health》的研究,构建了一个基于生成式预训练Transformer的自动化管道,为 occupational hygiene(职业卫生)领域带来了新的解决方案。
研究团队采用的技术方法主要包括三个核心环节:首先利用PyMuPDF库将PDF格式的SDS转换为文本数据,接着通过正则表达式定位16个标准章节的关键信息,最后采用OpenAI的GPT系列模型进行精准提取。值得注意的是,研究过程中进行了三次迭代优化:初始阶段(IT1)直接使用原始文本和基础提示词;改进阶段(IT2)增加了文本预处理和后处理步骤,并优化了提示词工程(prompt engineering);最终阶段(IT3)则引入了更先进的GPT-4-omni模型并扩展了提取变量范围。整个研究基于来自职业健康与安全机构的真实SDS数据库,样本量达470份文档。
方法管道优化效果显著
通过三次迭代实验,研究团队成功将平均提取准确率从IT1的0.39提升至IT3的0.83。其中信号词(signal words)的识别准确率从0.38跃升至0.94,危害声明(H-phrases)的提取效果改善最为明显,从最初的0.06提高到0.89。这种进步主要归功于提示词描述的精细化调整和输出后处理策略的优化。
变量提取性能差异分析
不同变量的提取难度存在明显差异。公司名称和产品名称等结构化程度高的变量表现最佳(准确率0.81-0.84),而发布日期由于格式多样性问题始终是挑战性最高的变量(准确率0.74)。新增加的CAS号码和成分列表变量表现出色,分别达到0.87和0.90的准确率,展现了LLM在处理复杂化学信息方面的潜力。
技术局限与改进空间
研究发现当前PDF解析技术存在局限性,特别是对垂直排列文本的识别能力不足。研究人员指出,未来采用GPT-4的图像转文本能力或UniTable框架可能突破这一瓶颈。同时,虽然微调(fine-tuning)理论上能进一步提升性能,但其需要大量标注数据的特性使得成本效益比需要慎重评估。
这项研究的核心价值在于确立了LLM在职业安全文档处理中的实用边界。平均0.83的准确率虽然尚未达到完美,但已显著超越人工效率。特别是在处理非关键变量时,这种半自动化方案能够有效减轻专业人员的工作负担。更重要的是,研究揭示了提示词工程对输出质量的决定性影响,为后续相关应用提供了重要参考。
正如研究人员所言,这项技术不仅适用于结构相对规范的SDS文档,未来更可扩展至事故报告、暴露评估等更复杂的文本处理场景。随着LLM技术的持续进化,我们有理由相信,人工智能将在构建更安全工作环境的道路上发挥越来越重要的作用。这项研究为 occupational health and safety(职业健康与安全)领域的数字化转型提供了坚实的技术基石,开创了智能风险管理的新范式。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号