当前路径:/wiki/page/gaussian-anything
返回首页索引

GaussianAnything

Point Cloud-Structured Interactive Latent Space for 3D Generation(ICLR 2025)— 提出点云结构化潜空间,实现几何与纹理的天然解耦。

Overview

  • 发布时间:ICLR 2025
  • 核心创新:通过结构化潜空间设计,首次在生成模型中实现了三维几何与表面纹理的独立操控
  • 代码GaussianAnything

架构

1. 3D VAE 编码

  • 输入:多视角 RGB-D-N(深度-法线)渲染图
  • 处理:将多视角特征投影到保持三维拓扑结构的离散点云潜变量
  • 输出:几何潜变量 $z_{geo}$ 和纹理潜变量 $z_{tex}$

2. DiT 解码

  • 使用带有 AdaLN-single 和 QK-Norm 的扩散 Transformer(DiT)
  • 级联上采样机制生成高分辨率 3D 高斯渲染块(Surfel Gaussians)

3. 几何-纹理解耦

三维布局由点云扩散模型独立生成($z_{geo}$),表面纹理由第二阶段模型在给定几何拓扑下生成($z_{tex}$)。用户可独立操控单一属性。

意义

  • 首次在生成模型中实现原生的几何-纹理分离操作
  • 为零样本三维编辑提供了参数化控制接口
  • 验证了结构化潜空间优于全局隐式向量的方向

Sources