-
生物通官微
陪你抓住生命科技
跳动的脉搏
黑盒遗忘:一种裁剪大型人工智能模型的新方法
【字体: 大 中 小 】 时间:2024年12月11日 来源:AAAS
编辑推荐:
为了保护隐私和提高计算效率,预训练的大规模人工智能模型需要“忘记”特定信息,但在无法访问内部细节的黑盒视觉语言模型中,没有方法可以做到这一点。现在,来自日本的研究人员通过一种基于潜在上下文共享的创新策略解决了这个问题,成功地让图像分类器忘记了它所训练的多个类别。他们的发现可以扩大大规模人工智能模型的用例,同时保护最终用户的隐私。
大规模预训练的人工智能模型的能力最近突飞猛进,如大规模视觉语言模型,如CLIP或ChatGPT。这些典型的通才模型可以在涵盖大量领域的任务中执行得相当好,这为它们被公众广泛采用铺平了道路。然而,这种多功能性无疑是有代价的。
训练和操作大型模型消耗了大量的能量和时间,这违背了可持续发展的目标,也限制了它们可以部署的计算机类型。此外,在许多实际应用中,人们希望人工智能模型能够完成特定的角色,而不是多面手。在这种情况下,模型的通才能力可能是无用的,甚至适得其反,降低了准确性。是否有一种方法可以通过让大规模预训练模型“忘记”不必要的信息来更有效地利用它们?
在即将发表在《神经信息处理系统》(NeurIPS 2024)上的一篇论文中,由日本东京理科大学(TUS)副教授Go Irie领导的一个研究小组试图解决这个问题。他们开发了一种被称为“黑箱遗忘”的方法,通过这种方法,人们可以迭代地优化呈现给黑箱视觉语言分类器模型的文本提示,让它有选择地“忘记”一些它能识别的类。本研究的共同作者包括来自美国的Yusuke Kuwana先生和Yuta Goto先生,以及NEC公司的Takashi Shibata博士。
在实际应用中,很少需要对各种对象类别进行分类。例如,在自动驾驶系统中,识别有限类别的物体(如汽车、行人和交通标志)就足够了。我们不需要识别食物、家具或动物物种,”Irie博士解释说,“保留不需要识别的类别可能会降低整体分类的准确性,并导致操作上的缺点,如浪费计算资源和信息泄露的风险。”
虽然在预先训练的模型中确实存在一些选择性遗忘的方法,但这些方法都假设是白盒设置,用户可以访问模型的内部参数和架构。通常情况下,用户处理黑盒;由于商业或道德原因,他们无法访问模型本身或其大部分信息。因此,研究人员不得不采用一种所谓的无导数优化策略——一种不需要访问模型梯度的策略。
为此,他们扩展了一种称为CMA-ES的方法,以图像分类器模型CLIP作为本研究的目标模型。该进化算法包括对各种候选提示进行采样,并通过预定义的目标函数评估结果,根据计算值更新多元分布。
然而,对于大规模问题,无导数优化技术的性能会迅速下降。随着需要遗忘的类越来越多,用于优化输入提示的“潜在上下文”会变得难以管理。为了解决这个问题,研究小组提出了一种新的参数化技术,称为“潜在上下文共享”。这种方法包括将来自提示的潜在上下文分解为各种较小的元素,这些元素被认为是提示令牌的“唯一”或多个令牌之间的“共享”。通过针对这些较小的单元而不是大块的潜在上下文进行优化,可以大大降低问题的维度,使其更易于处理。
研究人员使用几个基准图像分类数据集验证了他们的方法,试图让CLIP“忘记”给定数据集中40%的类别。这标志着第一个研究的目标是让一个预训练的视觉语言模型在黑盒条件下无法识别特定的类,并且基于合理的性能基线,结果非常有希望。
这种创新方法在人工智能和机器学习领域具有重要意义。它可以帮助大规模模型在特定任务中表现得更好,扩展它们已经令人震惊的适用性。例如,另一个用途是通过让图像生成模型忘记特定的视觉上下文来防止它们产生不需要的内容。
此外,拟议的方法可以帮助解决隐私问题,这是该领域日益关注的问题。“如果服务提供商被要求从模型中删除某些信息,这可以通过从训练数据中删除有问题的样本来从头开始重新训练模型来完成。然而,重新训练一个大规模的模型会消耗大量的能量,”Irie博士说,“选择性遗忘,或所谓的机器学习,可能为这个问题提供一个有效的解决方案。”换句话说,它可以帮助制定保护所谓“被遗忘权”的解决方案,这在医疗保健和金融领域是一个特别敏感的话题。
这种开创性的方法不仅赋予了大规模人工智能模型权力,还保护了最终用户,为人工智能无缝融入我们的日常生活铺平了道路!
知名企业招聘