三维扩散模型 (3D Diffusion Models)

将去噪扩散概率模型（DDPM）应用于三维点云/体素数据生成与补全的方法体系。2021 年起成为三维生成领域的主导范式。

Overview

扩散模型通过马尔可夫链将真实数据分布逐步映射为高斯噪声（前向过程），并学习逆向去噪过程来重构数据。在三维点云场景中，需要对点云的置换不变性和高维稀疏性进行专门适配。

前向过程：通过预定义的方差调度 $\beta_t$ ，逐步向点云 $$x_0$$ 注入噪声：

q(x_t|x_{t-1}) = \mathcal{N}(x_t; \sqrt{1-\beta_t}x_{t-1}, \beta_t I)

逆向过程：学习噪声预测网络 $\epsilon_\theta$ ，从 $x_T \sim \mathcal{N}(0,I)$ 逐步去噪恢复 $$x_0$$ ：

p_\theta(x_{t-1}|x_t) = \mathcal{N}(x_{t-1}; \mu_\theta(x_t,t), \Sigma_\theta(x_t,t))

训练目标（简化版）：

\mathcal{L} = \mathbb{E}_{t,x_0,\epsilon} [ \|\epsilon - \epsilon_\theta(x_t, t)\|^2 ]

直接在点坐标上应用扩散。面临置换不变性挑战。代表：DPM（CVPR 2021）将点云点视为热力学系统中的粒子，以形状潜变量为条件进行去噪。

结合点云的连续坐标表示与体素的离散网格表示。体素分支提供局部结构正则化，点分支保留细粒度细节。代表：PVD（ICCV 2021）。

先使用 VAE 将高维点云压缩为低维隐特征向量，在潜空间中执行扩散与去噪。大幅降低计算复杂度。代表：LION、PointInfinity（分辨率不变性，支持 16K+ 点生成）。

用 Transformer 替代 U-Net 作为扩散骨干。代表：DiT-3D（2023），将 DiT 适配到体素化点云，引入 3D 窗口注意力。

将扩散模型与 Transformer 架构结合，在 3D 潜在空间中进行扩散生成。与点云级 Diffusion Transformer（DiT-3D）不同，这类方法首先将 3D 数据（网格、高斯等）编码到紧凑的潜在空间，再在该空间执行扩散。

代表工作：
- Direct3D（NeurIPS 2024）—— 图像到 3D 的端到端生成，3D 潜在扩散 Transformer
- Compress3D（ECCV 2024）—— 压缩 3D 潜空间用于高效生成

与扩散生成并行的确定性重建路线。CRM（2024）使用卷积重建模型从单张图像生成纹理网格，代表了非扩散路线的 3D 重建范式。

不建模噪声预测，而是学习向量场在概率路径上的变换。Not-So-OT Flow（ICLR 2025）解决了 OT flow 在点云上的扩展性问题，提出离线 OT + 混合耦合。

分块体素扩散：PatchScene
- 将完整体素网格切分为局部块独立扩散，支持大尺度场景
- 随机耦合空间融合 + 密度自适应时间融合 + Annular-Flow 由内向外扩散
- 20m 训练零样本泛化到 50m，SemanticKITTI CD 0.319 (SOTA)

触觉引导条件扩散：TouchDream
- 条件扩散模型"想象"触觉信号，以局部触觉先验引导三维补全
- 球面采样位姿 + 触觉隐空间编解码 + 交叉注意力精化
- 跨模态引导新范式：触觉→几何

爆炸-收拢两态扩散：EI-Part
- Explode 阶段径向炸开腾空间做补全，Implode 阶段迭代挤紧做精修
- 自注意力保持跨阶段一致性

扩散矩阵去噪排牙：TAlignDiff
- 在变换矩阵空间进行扩散/去噪，而非坐标空间
- DTMD (Diffusion Transformation Matrix Denoiser) + 双向反馈几何约束