当前路径:/wiki/page/di3d
返回首页索引

DiT-3D

DiT-3D: Exploring Plain Diffusion Transformers for 3D Shape Generation(Huawei Noah's Ark + MBZUAI + CUHK + TUM, 2023)— 首个将 Diffusion Transformer 从 2D 图像扩展到 3D 点云生成的工作。

Overview

  • 发布时间:arXiv 2307.01831(Preprint, 2023)
  • 核心思想:用 Transformer 替代 U-Net 作为点云扩散骨干,验证 DiT 架构在 3D 领域的可扩展性
  • 代码/项目DiT-3D.github.io

架构创新

1. 体素化扩散(Voxelized Denoising)

  • 将点云体素化为 $V \times V \times V \times 3$ 的稠密表示(V=32)
  • 在体素空间中进行扩散去噪,而非点坐标空间
  • 最终通过 devoxelization 恢复点云

2. 3D Patch Embedding + 3D Positional Encoding

  • 使用 3D 卷积对 $p \times p \times p$ patch 进行编码
  • 频率式正余弦 3D 位置编码

3. 3D Window Attention

  • 将全局注意力的复杂度 $O(L^2)$ 降至 $O(L^2/R^3)$
  • R=4(窗口大小),在部分 block 中使用

4. 2D→3D 参数高效微调

  • 加载 ImageNet 预训练的 DiT-2D 权重,仅训练 0.09MB 参数即可迁移到 3D
  • 使用 DiffFit 微调策略

性能(ShapeNet Chair, 1-NNA ↓)

方法 1-NNA@CD 1-NNA@EMD
PVD (ICCV 2021) 57.09 60.87
LION (NeurIPS 2022) 53.70 52.34
MeshDiffusion (ICLR 2023) 53.69 57.63
DiT-3D 49.11 50.73

模型缩放

  • DiT-3D-S/4(默认),支持 S/B/L/XL
  • 增大模型规模持续提升性能,与 DiT-2D 结论一致

Sources