三维扩散模型 (3D Diffusion Models)
将去噪扩散概率模型(DDPM)应用于三维点云/体素数据生成与补全的方法体系。2021 年起成为三维生成领域的主导范式。
Overview
扩散模型通过马尔可夫链将真实数据分布逐步映射为高斯噪声(前向过程),并学习逆向去噪过程来重构数据。在三维点云场景中,需要对点云的置换不变性和高维稀疏性进行专门适配。
数学模型
前向过程:通过预定义的方差调度 $ \beta_t $,逐步向点云 $x_0$ 注入噪声:
$$ q(x_t|x_{t-1}) = \mathcal{N}(x_t; \sqrt{1-\beta_t}x_{t-1}, \beta_t I) $$
逆向过程:学习噪声预测网络 $ \epsilon_\theta $,从 $x_T \sim \mathcal{N}(0,I)$ 逐步去噪恢复 $x_0$:
$$ p_\theta(x_{t-1}|x_t) = \mathcal{N}(x_{t-1}; \mu_\theta(x_t,t), \Sigma_\theta(x_t,t)) $$
训练目标(简化版):
$$ \mathcal{L} = \mathbb{E}{t,x_0,\epsilon} [ |\epsilon - \epsilon\theta(x_t, t)|^2 ] $$
架构发展脉络
1. 原始坐标空间扩散
直接在点坐标上应用扩散。面临置换不变性挑战。代表:DPM(CVPR 2021)将点云点视为热力学系统中的粒子,以形状潜变量为条件进行去噪。
2. 点-体素混合架构 (Point-Voxel Hybrid)
结合点云的连续坐标表示与体素的离散网格表示。体素分支提供局部结构正则化,点分支保留细粒度细节。代表:PVD(ICCV 2021)。
3. 潜空间扩散 (Latent Diffusion)
先使用 VAE 将高维点云压缩为低维隐特征向量,在潜空间中执行扩散与去噪。大幅降低计算复杂度。代表:LION、PointInfinity(分辨率不变性,支持 16K+ 点生成)。
4. Diffusion Transformer (DiT)
用 Transformer 替代 U-Net 作为扩散骨干。代表:DiT-3D(2023),将 DiT 适配到体素化点云,引入 3D 窗口注意力。
5. 3D 潜在扩散 Transformer (3D Latent Diffusion Transformer)
将扩散模型与 Transformer 架构结合,在 3D 潜在空间中进行扩散生成。与点云级 Diffusion Transformer(DiT-3D)不同,这类方法首先将 3D 数据(网格、高斯等)编码到紧凑的潜在空间,再在该空间执行扩散。
代表工作:
- Direct3D(NeurIPS 2024)—— 图像到 3D 的端到端生成,3D 潜在扩散 Transformer
- Compress3D(ECCV 2024)—— 压缩 3D 潜空间用于高效生成
6. 卷积/混合 3D 重建
与扩散生成并行的确定性重建路线。CRM(2024)使用卷积重建模型从单张图像生成纹理网格,代表了非扩散路线的 3D 重建范式。
7. 流匹配(Flow Matching)
不建模噪声预测,而是学习向量场在概率路径上的变换。Not-So-OT Flow(ICLR 2025)解决了 OT flow 在点云上的扩展性问题,提出离线 OT + 混合耦合。
Related
- point-cloud-completion — 点云补全总览
- pvd — 点-体素扩散
- loss-function-point-cloud — 点云损失函数
- conditional-generation-3d — 条件扩散生成
Counter-arguments & data gaps
- 扩散模型推理步数多(通常 50-1000 步),生成速度远慢于 GAN 或确定性方法
- 流匹配(Flow Matching)作为替代范式已在部分工作中展示更优的轨迹效率(Not-So-OT Flow)
Sources
- 三维点云生成条件控制综述 — 2026
- DPM: Diffusion Probabilistic Models for 3D Point Cloud Generation — CVPR 2021
- direct3d.pdf (NeurIPS) — NeurIPS 2024
- compress3d-eccv.pdf (ECCV) — ECCV 2024
- crm.pdf (arXiv) — 2403.05034,2024-03