编辑推荐:
为解决建筑与土木工程领域数据互操作性难题,研究人员开展语义文本相似性嵌入模型应用研究。通过多阶段微调方法优化模型,结果表明域适应模型(如 Weight-Decomposed Low-Rank Adaptation)显著优于基础模型,为建筑行业数据集成与智能应用奠定基础。
在建筑与土木工程领域,数据碎片化与系统异构性如同无形壁垒,阻碍着智能建筑应用的发展。不同系统如建筑信息模型(BIM)、建筑能源模型(BEM)和建筑管理系统(BMS)各自为阵,术语差异与语义断层导致信息难以互通,不仅拖慢项目效率,更制约了行业的数字化转型。如何打破这些壁垒,实现跨系统的数据融合与互操作,成为亟待解决的关键问题。
为攻克这一难题,研究人员开展了语义文本相似性嵌入模型的应用研究。通过训练通用语言模型在建筑领域专用数据集上进行域适应,旨在提升模型对行业术语和复杂关系的捕捉能力。来自相关机构的研究者以 BAAI/bge-large-en-v1.5 模型为基础,结合建筑与土木工程领域的多源数据,开展了一系列精细的模型优化工作。研究成果发表在《Engineering Applications of Artificial Intelligence》,为行业数据整合提供了新方向。
研究采用了多阶段的关键技术方法。首先进行全面的数据收集与预处理,整合 BIM、BEM、BMS 等多源技术文档,通过命名实体识别(NER)、术语映射和数据增强(如回译)构建高质量数据集。随后采用参数高效微调(PEFT)策略,重点评估了 LoRA(Low-Rank Adaptation)、RSLoRA(Rank Stabilized LoRA)和 DoRA(Weight-Decomposed Low-Rank Adaptation)三种方法。通过连续预训练、任务特定微调和适配器优化,在保持计算效率的同时提升模型的域适应能力。
实验结果与性能评估
在语义相似性任务中,所有域适应模型均显著优于基线模型。LoRA、RSLoRA 和 DoRA 在 HVAC 术语、建筑规范等数据集上分别实现了 8.9%、11.6% 和 12.8% 的性能提升。其中,DoRA 通过权重分解为幅度和方向分量,在 GLUE 基准测试中平均得分达 87.6%,在 SQuAD 问答任务中 F1 分数提升至 91.2%,展现出对技术术语和上下文关系的更强捕捉能力。
域特定性能与局限性
在建筑领域细分任务中,DoRA 在处理新兴术语和复杂概念时表现出更高的准确性,但存在过度自信分类的倾向。相比之下,RSLoRA 在稳定性和计算效率间取得平衡,适合资源受限场景。研究同时发现,所有模型在罕见术语和跨域歧义问题上仍有改进空间,需进一步扩展训练数据的覆盖范围。
结论与意义
这项研究证实,域特定嵌入模型能够有效提升建筑领域的数据互操作性。DoRA 等参数高效方法以 minimal resource investment 实现了对技术术语的精准理解和跨系统数据对齐,为 BIM、BEM、BMS 的整合提供了可行路径。研究成果不仅为智能建筑应用(如能源优化、设施管理)奠定了基础,也为其他技术领域的域适应模型开发提供了方法论参考。未来,随着训练数据的扩展和持续学习机制的引入,这类模型有望推动建筑行业向更高效、集成的数字化生态迈进。