三维条件生成 (Conditional 3D Generation)

基于文本、图像、多视角扫描等多模态条件控制的三维点云/资产生成。2023 年以来研究焦点从无条件生成全面转向条件控制生成与编辑。

Overview

条件生成使得三维生成从"随机盲盒式合成"走向可控的精准生成。控制模态包括：
- 文本提示：自然语言描述生成对应三维物体
- 参考图像：单/多视角图像引导
- 残缺扫描：以不完整点云/深度图为条件进行补全
- 工程参数：尺寸、公差等结构化数值控制（见 Parametric-ControlNet）

方法谱系

文本-图像-三维级联

Point-E（OpenAI, 2022）：文本 → GLIDE 合成图像 → 第二扩散模型以 CLIP 嵌入为条件生成粗糙彩色点云
Shap-E（OpenAI, 2023）：不直接输出点云，而是编码为 MLP 隐式参数（SDF + NeRF），在该潜空间训练扩散模型 → 极快文本到三维生成
局限：基于 2D-lifting 的方法缺乏严格几何拓扑约束，生成结果卡通化、边缘模糊、结构崩溃

结构化潜空间

GaussianAnything（ICLR 2025）：提出点云结构化潜空间，通过 3D VAE 将多视角 RGB-D-N 渲染投影到离散点云潜变量，用 DiT 解码。关键突破：几何与纹理天然解耦。

条件扩散补全

DiffComplete（NeurIPS 2023）：以不完整 TSDF 为条件的概率补全，分层特征聚合 + 占用感知融合
SuperPC：统一框架同时完成补全、上采样和着色

条件注入方式

方法	条件类型	注入机制
PVD	残缺扫描	以形状潜变量为条件
DiffComplete	残缺 TSDF	分层特征注入 U-Net 各层
Point-E	CLIP 文本/图像嵌入	扩散模型以嵌入为条件
GaussianAnything	多视角渲染	3D VAE 投影到结构化潜空间

point-cloud-completion — 点云补全
diffusion-model-3d — 扩散模型架构
gaussian-anything — 几何纹理解耦
diffcomplete — 条件扩散补全
parametric-controlnet — 工程参数控制

Counter-arguments & data gaps

文本引导的质量高度依赖 CLIP/多模态模型的语义对齐精度
跨模态生成的结果质量评估缺乏统一标准
条件控制精度（特别是数值/工程参数）仍有显著提升空间

Sources

三维点云生成条件控制综述 — 2026