DiT-3D
DiT-3D: Exploring Plain Diffusion Transformers for 3D Shape Generation(Huawei Noah's Ark + MBZUAI + CUHK + TUM, 2023)— 首个将 Diffusion Transformer 从 2D 图像扩展到 3D 点云生成的工作。
Overview
- 发布时间:arXiv 2307.01831(Preprint, 2023)
- 核心思想:用 Transformer 替代 U-Net 作为点云扩散骨干,验证 DiT 架构在 3D 领域的可扩展性
- 代码/项目:DiT-3D.github.io
架构创新
1. 体素化扩散(Voxelized Denoising)
- 将点云体素化为 $V \times V \times V \times 3$ 的稠密表示(V=32)
- 在体素空间中进行扩散去噪,而非点坐标空间
- 最终通过 devoxelization 恢复点云
2. 3D Patch Embedding + 3D Positional Encoding
- 使用 3D 卷积对 $p \times p \times p$ patch 进行编码
- 频率式正余弦 3D 位置编码
3. 3D Window Attention
- 将全局注意力的复杂度 $O(L^2)$ 降至 $O(L^2/R^3)$
- R=4(窗口大小),在部分 block 中使用
4. 2D→3D 参数高效微调
- 加载 ImageNet 预训练的 DiT-2D 权重,仅训练 0.09MB 参数即可迁移到 3D
- 使用 DiffFit 微调策略
性能(ShapeNet Chair, 1-NNA ↓)
| 方法 | 1-NNA@CD | 1-NNA@EMD |
|---|---|---|
| PVD (ICCV 2021) | 57.09 | 60.87 |
| LION (NeurIPS 2022) | 53.70 | 52.34 |
| MeshDiffusion (ICLR 2023) | 53.69 | 57.63 |
| DiT-3D | 49.11 | 50.73 |
模型缩放
- DiT-3D-S/4(默认),支持 S/B/L/XL
- 增大模型规模持续提升性能,与 DiT-2D 结论一致
Related
- diffusion-model-3d — 3D 扩散模型架构总览
- gaussian-anything — ICLR 2025 使用 DiT 的后续工作
- not-so-ot-flow — 对比流匹配方法
Sources
- DiT-3D PDF (5.5M) — 2023