-
生物通官微
陪你抓住生命科技
跳动的脉搏
原来我不是真的:新工具检测人工智能生成的视频
【字体: 大 中 小 】 时间:2024年06月28日 来源:AAAS
编辑推荐:
今年早些时候,一家跨国公司的一名员工向欺诈者汇去了2500万美元。这名员工认为,转账的指令直接来自公司的首席财务官。实际上,犯罪分子利用人工智能程序制作了该首席财务官和其他几位同事精心策划的逼真视频。人工智能制作的视频已经变得如此逼真,以至于人类(以及现有的检测系统)很难区分真实和虚假的视频。为了解决这个问题,由计算机科学教授杨俊峰领导的哥伦比亚工程研究人员开发了一种新的工具来检测人工智能生成的视频,称为DIVID,即扩散生成视频检测器的缩写。DIVID扩展了该团队今年早些时候发布的成果——raidar,它通过分析文本本身来检测人工智能生成的文本,而无需访问大型语言模型的内部工作原理。
今年早些时候,一家跨国公司的一名员工向诈骗犯汇去了2500万美元。这名员工认为,转账的指令直接来自公司的首席财务官。实际上,犯罪分子利用人工智能程序制作了该首席财务官和其他几位同事精心策划的逼真视频。
人工智能制作的视频已经变得如此逼真,以至于人类(以及现有的检测系统)很难区分真实和虚假的视频。为了解决这个问题,由计算机科学教授Junfeng Yang领导的哥伦比亚工程研究人员开发了一种新的工具来检测人工智能生成的视频,称为DIVID,即扩散生成视频检测器的缩写。DIVID扩展了该团队今年早些时候发布的成果——raidar,它通过分析文本本身来检测人工智能生成的文本,而无需访问大型语言模型的内部工作原理。
DIVID改进了早期现有的检测生成视频的方法,这些方法可以有效地识别由生成对抗网络(GAN)等较旧的人工智能模型生成的视频。GAN是一种具有两个神经网络的人工智能系统:一个创建假数据,另一个对其进行评估以区分假数据和真实数据。通过持续的反馈,两个网络都得到了改进,从而产生了高度逼真的合成视频。目前的人工智能检测工具会寻找不寻常的像素排列、不自然的运动或帧之间的不一致等迹象,这些迹象在真实视频中通常不会发生。
新一代的生成式AI视频工具,如OpenAI的Sora、Runway Gen-2和Pika,都使用扩散模型来制作视频。扩散模型是一种人工智能技术,它将随机噪声逐渐转化为清晰、逼真的图像,从而生成图像和视频。对于视频,它细化每帧单独,同时确保平稳过渡,产生高质量,逼真的结果。人工智能生成的视频越来越复杂,这对检测其真实性构成了重大挑战。
Yang的团队使用了一种叫做“扩散重建误差”的技术来检测扩散生成的图像。DIRE是一种测量输入图像与通过预训练扩散模型重建的相应输出图像之间差异的方法。
Yang是软件系统实验室的联合主任,他一直在探索如何检测人工智能生成的文本和视频。今年早些时候,随着Raidar的发布,Yang和合作者正在开发一种方法,通过分析文本本身来检测人工智能生成的文本,而无需访问chatGPT-4、Gemini或Llama等大型语言模型的内部工作原理。Raidar使用一种语言模型来改写或改变给定的文本,然后测量系统对给定文本进行了多少编辑。许多编辑意味着文本可能是人类编写的,而较少的修改意味着文本可能是机器生成的。
“雷达的洞察力——一个人工智能的输出通常被另一个人工智能认为是高质量的,所以它会做更少的编辑——真的很强大,而且不仅仅是文本,考虑到人工智能生成的视频变得越来越逼真,我们希望利用Raidar的洞察力,创造一种能够准确检测人工智能生成视频的工具。”
研究人员使用相同的概念开发了DIVID。这种新的生成式视频检测方法可以对扩散模型生成的视频进行识别。该研究论文包括开源代码和数据集,于2024年6月18日在西雅图举行的计算机视觉和模式识别会议(CVPR)上发表。
DIVID的工作原理是重建视频,并根据原始视频分析新重建的视频。它使用DIRE值来检测扩散生成的视频,因为该方法基于一个假设,即由扩散模型生成的重建图像应该彼此非常相似,因为它们是从扩散过程分布中采样的。如果有明显的改动,原始视频很可能是人为制作的。如果不是,它很可能是人工智能生成的。
该框架基于AI生成工具基于大型数据集的统计分布来创建内容的想法,从而产生更多的“统计手段”内容,例如视频帧中的像素强度分布、纹理模式和噪声特征、帧之间不自然变化的微妙不一致或伪影,或者在扩散生成的视频中比在真实视频中更可能出现的不寻常模式。
相比之下,人类的视频创作表现出个性,偏离了统计规范。对于来自Stable Vision Diffusion, Sora, Pika和Gen-2的扩散生成视频的基准数据集,DIVID实现了突破性的视频检测准确率高达93.7%。
目前,DIVID是一个命令行工具,可以分析视频并输出它是人工智能还是人工生成的,只能由开发人员使用。研究人员指出,他们的技术有可能作为插件集成到Zoom中,以实时检测深度伪造电话。该团队还在考虑开发一个网站或浏览器插件,让普通用户也能访问DIVID。
“我们的框架在检测人工智能生成的内容方面是一个重大飞跃,”论文的作者之一、Yang的博士生Yun-Yun Tsai说。“有太多的骗子使用人工智能生成的视频,阻止他们并保护社会至关重要。”
研究人员现在正致力于改进DIVID的框架,使其能够处理来自开源视频生成工具的不同类型的合成视频。他们还使用DIVID为DIVID数据集收集视频。