DiT-3D

DiT-3D: Exploring Plain Diffusion Transformers for 3D Shape Generation（Huawei Noah's Ark + MBZUAI + CUHK + TUM, 2023）— 首个将 Diffusion Transformer 从 2D 图像扩展到 3D 点云生成的工作。

Overview

发布时间：arXiv 2307.01831（Preprint, 2023）
核心思想：用 Transformer 替代 U-Net 作为点云扩散骨干，验证 DiT 架构在 3D 领域的可扩展性
代码/项目：DiT-3D.github.io

架构创新

1. 体素化扩散（Voxelized Denoising）

将点云体素化为 $V \times V \times V \times 3$ 的稠密表示（V=32）
在体素空间中进行扩散去噪，而非点坐标空间
最终通过 devoxelization 恢复点云

2. 3D Patch Embedding + 3D Positional Encoding

使用 3D 卷积对 $p \times p \times p$ patch 进行编码
频率式正余弦 3D 位置编码

3. 3D Window Attention

将全局注意力的复杂度 $\(O(L^2)\)$ 降至 $\(O(L^2/R^3)\)$
R=4（窗口大小），在部分 block 中使用

4. 2D→3D 参数高效微调

加载 ImageNet 预训练的 DiT-2D 权重，仅训练 0.09MB 参数即可迁移到 3D
使用 DiffFit 微调策略

性能（ShapeNet Chair, 1-NNA ↓）

方法	1-NNA@CD	1-NNA@EMD
PVD (ICCV 2021)	57.09	60.87
LION (NeurIPS 2022)	53.70	52.34
MeshDiffusion (ICLR 2023)	53.69	57.63
DiT-3D	49.11	50.73

模型缩放

DiT-3D-S/4（默认），支持 S/B/L/XL
增大模型规模持续提升性能，与 DiT-2D 结论一致

diffusion-model-3d — 3D 扩散模型架构总览
gaussian-anything — ICLR 2025 使用 DiT 的后续工作
not-so-ot-flow — 对比流匹配方法

Sources

DiT-3D PDF (5.5M) — 2023