-
生物通官微
陪你抓住生命科技
跳动的脉搏
新技术 | 使用生成式AI创建逼真3D形状的新方法
【字体: 大 中 小 】 时间:2024年12月11日 来源:AAAS
编辑推荐:
一种新的人工智能方法可以生成清晰、高质量的3D形状,更接近最佳2D图像模型的质量。以前的方法通常生成模糊或卡通化的3D形状。
为虚拟现实、电影制作和工程设计等应用创建逼真的3D模型可能是一个繁琐的过程,需要大量的人工试验和错误。
虽然图像的生成式人工智能模型可以通过使创作者从文本提示生成逼真的2D图像来简化艺术过程,但这些模型并不是为生成3D形状而设计的。为了弥补这一差距,最近开发的一种名为Score Distillation的技术利用2D图像生成模型来创建3D形状,但其输出结果往往模糊不清或卡通化。
麻省理工学院的研究人员探索了用于生成2D图像和3D形状的算法之间的关系和差异,确定了低质量3D模型的根本原因。从那里,他们精心制作了一个简单的修复Score Distillation,它可以生成尖锐的,高质量的3D形状,其质量更接近于最好的模型生成的2D图像。
其他一些方法试图通过重新训练或微调生成人工智能模型来解决这个问题,这可能既昂贵又耗时。
相比之下,麻省理工学院研究人员的技术无需额外的培训或复杂的后处理,就可以实现与这些方法相当或更好的3D形状质量。
此外,通过确定问题的原因,研究人员提高了对分数蒸馏和相关技术的数学理解,使未来的工作能够进一步提高性能。
电气工程和计算机科学(EECS)研究生Artem Lukoianov是一篇关于这项技术的论文的主要作者,他说:“现在我们知道我们应该朝哪个方向前进,这使我们能够找到更快、更高质量的更有效的解决方案。”“从长远来看,我们的工作可以帮助设计师促进这一过程,使其更容易创建更逼真的3D形状。”
这项研究将在神经信息处理系统会议上发表。
从2D图像到3D形状
DALL-E等扩散模型是一种可以从随机噪声中生成逼真图像的生成式人工智能模型。为了训练这些模型,研究人员向图像中添加噪声,然后教模型反转过程并去除噪声。这些模型使用这种习得的“去噪”过程,根据用户的文本提示创建图像。
但扩散模型在直接生成逼真的3D形状方面表现不佳,因为没有足够的3D数据来训练它们。为了解决这个问题,研究人员在2022年开发了一种名为分数蒸馏采样(SDS)的技术,该技术使用预训练的扩散模型将2D图像组合成3D表示。
该技术包括从随机的3D表示开始,从随机的相机角度渲染目标的2D视图,向该图像添加噪声,用扩散模型去噪,然后优化随机的3D表示,使其与去噪的图像相匹配。重复这些步骤,直到生成所需的3D对象。
然而,以这种方式生成的3D形状往往看起来模糊或过饱和。
“这一瓶颈已经存在一段时间了。我们知道基础模型能够做得更好,但人们不知道为什么3D形状会发生这种情况,”Lukoianov说。
麻省理工学院的研究人员探索了SDS的步骤,并确定了形成该过程关键部分的公式与2D扩散模型中的对应公式之间的不匹配。该公式告诉模型如何通过一步一步地添加和去除噪声来更新随机表示,使其看起来更像期望的图像。
由于这个公式的一部分涉及到一个过于复杂而无法有效求解的方程,SDS在每一步都用随机采样的噪声代替它。麻省理工学院的研究人员发现,这种噪音会导致模糊或卡通化的3D形状。
一个近似的答案
研究人员没有试图精确地解决这个繁琐的公式,而是测试了近似技术,直到他们确定了最好的一个。他们的近似技术不是随机采样噪声项,而是从当前3D形状渲染中推断缺失项。
他说:“通过这样做,正如论文中的分析预测的那样,它产生了看起来清晰逼真的3D形状。”
此外,研究人员提高了图像渲染的分辨率,并调整了一些模型参数,以进一步提高3D形状的质量。
最后,他们能够使用现成的,预训练的图像扩散模型来创建光滑,逼真的3D形状,而无需昂贵的再培训。3D对象与使用依赖于临时解决方案的其他方法产生的对象相似。
“试图盲目地尝试不同的参数,有时有效,有时无效,但你不知道为什么。我们知道这就是我们要解的方程。现在,这使我们能够想出更有效的方法来解决它,”他说。
因为他们的方法依赖于一个预训练的扩散模型,它继承了该模型的偏见和缺点,使其容易产生幻觉和其他失败。改进潜在的扩散模型将促进它们的进程。
除了研究这个公式,看看如何更有效地解决它,研究人员还对探索这些见解如何改进图像编辑技术感兴趣。
知名企业招聘