Metamon-GS:通过基于方差的密度增强技术和光编码方法提升模型的表示能力

《Neural Networks》:Metamon-GS: Enhancing Representability with Variance-Guided Densification and Light Encoding

【字体: 时间:2025年11月22日 来源:Neural Networks 6.3

编辑推荐:

  3D Gaussian Splatting通过高斯函数表示场景并提升渲染效率,但存在视角相关光照建模不足和密集化策略不完善的问题。本文提出Metamon-GS方法,采用方差引导的密集化策略优化高斯点分布,并通过多层级哈希网格编码光照信息,有效提升复杂光照场景下的重建质量。

  
苏俊彦|赵宝珠|张晓涵|刘琪
华南理工大学未来技术系,广州,511400,中国

摘要

3D高斯点扩散(3DGS)的引入通过使用高斯函数来表示场景,推动了新型视图合成的发展。利用锚点嵌入对高斯点特征进行编码显著提升了新型3DGS变体的性能。尽管取得了显著进展,但进一步提高渲染性能仍然具有挑战性。特征嵌入难以在不同光照条件下准确表示颜色,这导致图像出现褪色现象。另一个问题是缺乏适当的密集化策略,导致在高斯点初始化较少的区域高斯点无法充分增长,从而产生模糊和针状伪影。为了解决这些问题,我们从基于方差引导的密集化策略和多级哈希网格的创新角度提出了Metamon-GS。该密集化策略专门针对像素中梯度方差较大的高斯点进行优化,并通过增加额外的高斯点来提高重建质量。后者研究了隐式的全局光照条件,并能够准确解释不同视角下的颜色和特征嵌入。我们在公开可用的数据集上进行的全面实验表明,Metamon-GS优于其基线模型和之前的版本,在渲染新视图方面提供了更高质量的结果。我们方法的源代码可在以下链接获取:https://github.com/sato-imo/metamon-gs

引言

计算机图形学和3D视觉技术的进步极大地提高了从2D图像创建详细3D场景的能力。这一进步基于多年的3D重建方法发展,例如基于运动的结构(SfM)(Snavely, Seitz, Szeliski, 2006, Ye, Bao, Zhou, Liu, Bao, Zhang, 2024a)和多视图立体视觉(MVS)(Furukawa, Ponce, 2010, Li, Zhou, Jiang, Zhang, Xiang, Sun, Luan, Bao, Zhang, 2023, Xu, Chen, Sun, Xie, Kang, 2024)。其中一个值得注意的进展是Kerbl等人(2023)提出的3D高斯点扩散(3DGS),它采用椭圆高斯函数(也称为高斯点)来表示3D场景。3DGS扩展了使用类似其他基于点的方法(Aliev, Sevastopolsky, Kolos, Ulyanov, Lempitsky, 2020, Gross, Pfister, 2007)来表示3D场景的思想,这些方法将高斯函数视为基本元素。一个高斯点由一组可学习的特征定义,如球谐分量、尺度、旋转、位置和不透明度。这种方法允许场景的平滑且连续变化的表现,使得渲染更加高效,并成为重建高质量3D场景的有用工具。此外,重建良好的点云还可以支持多种下游任务,包括关键点提取(Shao et al., 2024)、3D对象检测(Ding, Xie, Nie, Wu, Cao, 2024, Li, Li, Gao, Gao, Wu, Liu, 2025)和点云加密(Yang et al., 2024a)。
尽管在创建高质量的新视图图像方面取得了进展,但在特定条件下提高重建质量仍存在挑战(Kheradmand, Rebain, Sharma, Sun, Tseng, Isack, Kar, Tagliasacchi, Yi, 2024, Wei, Wu, Zheng, Rezatofighi, & Cai, Ye, Li, Liu, Qiao, Dou, 2024b)。降低重建质量的主要问题是某些初始点云稀疏的区域未能得到充分密集化。足够的高斯点无法充分表示这些区域,导致模型陷入局部最小值,从而产生模糊和针状伪影。
另一个挑战是当不同视图方向的光照条件变化过于剧烈时,这些区域的外观会出现颜色退化和细节丢失。
为了解决这些挑战,我们提出了Metamon-GS。我们的方法采用基于方差引导的密集化技术,通过分析颜色梯度的方差来确定需要更多高斯点的区域。该技术能够识别出颜色变化大但位置梯度变化小的区域,从而有效地确定需要增加高斯点密度的区域。通过强调颜色差异而不仅仅是位置梯度,我们可以在之前未能完全重建的区域实现更好的表示,解决了渲染像素间梯度平滑的不足。
此外,我们还解决了根据不同视角有效解释颜色的问题(Gao, Gu, Lin, Li, Zhu, Cao, Zhang, Yao, 2024, Jiang, Tu, Liu, Gao, Long, Wang, Ma, 2024, Shi, Wu, Wu, Liu, Zhao, Feng, Zhang, Zhou, Ding, Wang, 2025, Yang, Gao, Sun, Huang, Lyu, Zhou, Jiao, Qi, Jin, 2024b)。受到Instant-NGP(Müller et al., 2022)的启发,我们建议使用哈希网格来编码视图依赖的特征。我们将光照条件视为全局属性,并将最初存储在锚点嵌入中的方向信息纳入哈希网格。在MLP输入中,用哈希网格编码的方向向量替换了原始的方向向量。这种方法实现了更准确的视图依赖颜色解码。
我们在Mip-NeRF 360(Barron et al., 2022)、NeRF Synthetic(Mildenhall et al., 2020)和Tanks & Temples(Knapitsch et al., 2017)数据集上进行了广泛的实验,以展示我们模型相对于基线模型的优势。我们还进行了消融研究来验证所提出方法的有效性。我们的贡献包括:
  • 我们提出使用哈希网格来编码光照条件,从而提高了光照复杂的场景的重建质量。
  • 我们提出了一种基于像素梯度方差的新型密集化策略,以解决渲染像素梯度平滑引起的问题。该方法主要在高斯光栅化器的代码部分使用CUDA实现。
  • 在各种数据集上的实验表明,我们的方法成功解决了这些挑战,并优于基线模型。
  • 部分摘录

    神经辐射场

    神经辐射场(NeRF)是一种革命性技术,在新型视图合成任务中表现出卓越的性能(Mildenhall, Srinivasan, Tancik, Barron, Ramamoorthi, Ng, 2020, Verbin, Hedman, Mildenhall, Zickler, Barron, Srinivasan, 2022)。NeRF利用多层感知器(MLPs)隐式表示3D场景。通过估计辐射场并使用体积渲染(Drebin, Carpenter, Hanrahan, 1988, Levoy, 1990),NeRF可以生成高质量

    方法

    在这里,我们提出了Metamon-GS来解决上述限制,图2概述了我们的方法。首先我们简要回顾了原始的3DGS密集化策略,并进行了预实验来分析高斯点颜色梯度的均值和方差。然后我们介绍了基于方差引导的密集化策略,解释了它是如何利用颜色梯度的方差的。最后,我们介绍了我们的光照哈希编码器,该编码器使用哈希网格进行编码

    实验设置

    数据集我们在三个主要数据集上的多种场景中评估了我们的方法:Mip-NeRF 360(Barron et al., 2022)、Tanks & Temples(Knapitsch et al., 2017)和DeepBlending(Hedman et al., 2018)。这个全面的选择包括真实世界和合成环境,涵盖了复杂程度不同的室内和室外场景。MipNeRF-360数据集提供了七个具有挑战性视图分布的真实世界场景,而NeRF Synthetic提供了受控的环境

    结论

    我们提出了一种新的方法,用于识别需要密集化的高斯点,该方法基于像素生成的颜色梯度的方差。这种方法对应于人类对不清晰区域的感知方式。此外,实现了一种视图依赖的哈希网格特征,用于替代颜色MLP的方向向量输入,减少了在高斯锚点建模复杂光照时的不确定性。实验结果表明,我们的方法

    CRediT作者贡献声明

    苏俊彦:撰写 – 原始草稿,可视化,验证,软件,方法论,调查,数据整理,概念化。赵宝珠:撰写 – 审阅与编辑,可视化,验证,监督。张晓涵:撰写 – 审阅与编辑,可视化,监督。刘琪:撰写 – 审阅与编辑,监督,资源管理,项目协调,调查,资金获取。

    利益冲突声明

    作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文所述的工作。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 急聘职位
    • 高薪职位

    知名企业招聘

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号