MetaSel:一种用于微调深度神经网络模型的测试样本选择方法

《IEEE Transactions on Software Engineering》:MetaSel: A Test Selection Approach for Fine-Tuned DNN Models

【字体: 时间:2025年11月21日 来源:IEEE Transactions on Software Engineering 5.6

编辑推荐:

  协变量偏移下深度神经网络部署需测试选择,MetaSel方法通过结合预训练和微调模型的行为差异,提升测试覆盖率。该研究在68种微调模型上验证,尤其在标签受限时,平均TRC提升28.46%-56.18%,稳定性优于SOTA方法。

  

摘要:

深度神经网络(DNNs)在部署过程中会面临协变量偏移的问题,即开发环境和部署环境之间的数据分布发生了变化。微调技术可以将预训练模型适配到新的环境中,但这种适应通常需要较小的标注数据集。然而,在有限的标注预算下测试微调后的模型仍然是一个关键挑战。本文介绍了一种名为MetaSel的新方法,该方法专为解决协变量偏移问题而设计,可以从未标注的输入中选择合适的测试样本。MetaSel假设微调模型和预训练模型具有相似的数据分布,并且在许多输入上表现出类似的行为;但在某些输入子空间内,微调会改变模型的决策边界,使得这些输入更容易被错误分类。与仅依赖DNN模型及其输入集的传统方法不同,MetaSel结合了微调模型和预训练模型的信息以及它们之间的行为差异,从而能够更准确地估计未标注测试输入的错误分类概率,实现更有效的测试样本选择。通过广泛的实证评估,我们将MetaSel与11种最先进的方法进行了对比,涉及68个在不同数据分布变化程度(弱、中等和强)下的微调模型。结果表明,在标注预算非常有限的情况下,MetaSel在测试相对覆盖率(TRC)方面显著优于现有方法。与最常见的第二名方法相比,MetaSel的平均TRC提高了28.46%至56.18%,同时保持了较高的TRC中位数和较低的变异性。我们的结果证明了MetaSel在实际应用中的可行性、鲁棒性和成本效益。

引言

深度神经网络(DNNs)的广泛采用面临诸多挑战,其中一个主要问题是开发环境和部署环境之间的数据分布差异。从零开始为新部署环境训练DNN通常需要大量的标注数据,这可能会带来高昂的成本。迁移学习技术(如微调)通过利用在大型多样化数据集上训练的模型,并将其微调到相关但数据量较小的环境中,成为了一种有效且广泛使用的解决方案。然而,测试微调后的DNN模型同样面临标注难题,需要在有限的标注预算下选择合适的测试样本,以确保模型的可靠性和性能。在本文中,我们提出了一种名为MetaSel的有效测试样本选择方法,该方法专为微调后的分类DNN模型设计,在相同的预算条件下,尤其在资源受限的情况下,其在错误分类检测方面的表现始终优于现有的最先进方法(SOTA)。MetaSel特别适用于开发环境和部署环境之间存在数据分布偏移的场景,同时分类任务和模型输出类别保持不变。这种被称为“协变量偏移”的现象,在Pan和Yang的综合性研究中被归类为一种常见且重要的领域适应类型。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号