三维条件生成 (Conditional 3D Generation)
基于文本、图像、多视角扫描等多模态条件控制的三维点云/资产生成。2023 年以来研究焦点从无条件生成全面转向条件控制生成与编辑。
Overview
条件生成使得三维生成从"随机盲盒式合成"走向可控的精准生成。控制模态包括:
- 文本提示:自然语言描述生成对应三维物体
- 参考图像:单/多视角图像引导
- 残缺扫描:以不完整点云/深度图为条件进行补全
- 工程参数:尺寸、公差等结构化数值控制(见 Parametric-ControlNet)
方法谱系
文本-图像-三维级联
- Point-E(OpenAI, 2022):文本 → GLIDE 合成图像 → 第二扩散模型以 CLIP 嵌入为条件生成粗糙彩色点云
- Shap-E(OpenAI, 2023):不直接输出点云,而是编码为 MLP 隐式参数(SDF + NeRF),在该潜空间训练扩散模型 → 极快文本到三维生成
- 局限:基于 2D-lifting 的方法缺乏严格几何拓扑约束,生成结果卡通化、边缘模糊、结构崩溃
结构化潜空间
- GaussianAnything(ICLR 2025):提出点云结构化潜空间,通过 3D VAE 将多视角 RGB-D-N 渲染投影到离散点云潜变量,用 DiT 解码。关键突破:几何与纹理天然解耦。
条件扩散补全
- DiffComplete(NeurIPS 2023):以不完整 TSDF 为条件的概率补全,分层特征聚合 + 占用感知融合
- SuperPC:统一框架同时完成补全、上采样和着色
条件注入方式
| 方法 | 条件类型 | 注入机制 |
|---|---|---|
| PVD | 残缺扫描 | 以形状潜变量为条件 |
| DiffComplete | 残缺 TSDF | 分层特征注入 U-Net 各层 |
| Point-E | CLIP 文本/图像嵌入 | 扩散模型以嵌入为条件 |
| GaussianAnything | 多视角渲染 | 3D VAE 投影到结构化潜空间 |
Related
- point-cloud-completion — 点云补全
- diffusion-model-3d — 扩散模型架构
- gaussian-anything — 几何纹理解耦
- diffcomplete — 条件扩散补全
- parametric-controlnet — 工程参数控制
Counter-arguments & data gaps
- 文本引导的质量高度依赖 CLIP/多模态模型的语义对齐精度
- 跨模态生成的结果质量评估缺乏统一标准
- 条件控制精度(特别是数值/工程参数)仍有显著提升空间
Sources
- 三维点云生成条件控制综述 — 2026