GaussianAnything
Point Cloud-Structured Interactive Latent Space for 3D Generation(ICLR 2025)— 提出点云结构化潜空间,实现几何与纹理的天然解耦。
Overview
- 发布时间:ICLR 2025
- 核心创新:通过结构化潜空间设计,首次在生成模型中实现了三维几何与表面纹理的独立操控
- 代码:GaussianAnything
架构
1. 3D VAE 编码
- 输入:多视角 RGB-D-N(深度-法线)渲染图
- 处理:将多视角特征投影到保持三维拓扑结构的离散点云潜变量上
- 输出:几何潜变量 $z_{geo}$ 和纹理潜变量 $z_{tex}$
2. DiT 解码
- 使用带有 AdaLN-single 和 QK-Norm 的扩散 Transformer(DiT)
- 级联上采样机制生成高分辨率 3D 高斯渲染块(Surfel Gaussians)
3. 几何-纹理解耦
三维布局由点云扩散模型独立生成($z_{geo}$),表面纹理由第二阶段模型在给定几何拓扑下生成($z_{tex}$)。用户可独立操控单一属性。
意义
- 首次在生成模型中实现原生的几何-纹理分离操作
- 为零样本三维编辑提供了参数化控制接口
- 验证了结构化潜空间优于全局隐式向量的方向
Related
- conditional-generation-3d — 条件生成总览
- diffusion-model-3d — DiT 架构基础
- point-e-shap-e — 前期文本到三维工作(缺乏解耦能力)
Sources
- 三维点云生成条件控制综述 — 2026