
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于大型语言模型的框架:从科学文献中检索生命周期清单和环境影响数据
《Environmental Science & Technology》:A Large Language Model-based Framework to Retrieve Life Cycle Inventory and Environmental Impact Data from Scientific Literature
【字体: 大 中 小 】 时间:2025年10月22日 来源:Environmental Science & Technology 11.3
编辑推荐:
生命周期评估(LCA)依赖可靠的生命周期库存(LCI)数据,但获取过程耗时且受限于付费数据库。本研究提出Sustain-LLaMA框架,通过三阶段流程(分类模型筛选文献、预训练LLM注入知识、问答模型提取数据)实现自动化LCI数据检索,应用于甲醇生产和塑料包装末端处理案例,分类准确率达0.850-0.952,问答模型F1分数0.823-0.855,显著优于基线模型和USLCI数据库,提升行业可持续性实践效率。

生命周期评估(LCA)量化了从原材料提取到产品报废(EoL)处理过程中的环境影响,但其准确性取决于可靠的生命周期清单(LCI)数据。然而,获取此类数据耗时较长,需要大量的文献回顾或访问通常需要付费的数据库,这阻碍了研究的透明度。本研究提出了一个系统框架,利用重新训练的大型语言模型(LLM)来帮助LCA从业者检索LCI数据及其环境影响的相关信息。该框架包括三个阶段:(i)一个经过微调的分类模型用于识别相关文献;(ii)LLaMA-2-7B模型在选定文本上进行预训练,以将其领域知识注入其数据库;(iii)一个经过微调的问答模型从科学文献中提取LCI和环境影响数据。由此产生的LLM被称为“Sustain-LLaMA”。我们在两个案例中实施了该框架:甲醇生产和塑料包装的报废处理。经过重新训练后,分类模型在处理未见数据时取得了较高的准确率(甲醇为0.850,塑料包装为0.952),这意味着能够有效区分相关研究。采用检索增强生成(RAG)技术的问答模型在甲醇研究中的F1分数为0.823,在塑料研究中的F1分数为0.855。这些问答模型的性能与未经重新训练的LLaMA-2-7B版本以及USLCI数据库进行了对比,显示出相当或更优的准确率和效率。该框架通过自动化LCI数据检索提高了可扩展性和精确度,为推动化工和塑料行业向可持续性发展提供了有前景的工具。
生物通微信公众号
知名企业招聘