当前路径:/wiki/page/conditional-generation-3d
返回首页索引

三维条件生成 (Conditional 3D Generation)

基于文本、图像、多视角扫描等多模态条件控制的三维点云/资产生成。2023 年以来研究焦点从无条件生成全面转向条件控制生成与编辑。

Overview

条件生成使得三维生成从"随机盲盒式合成"走向可控的精准生成。控制模态包括:
- 文本提示:自然语言描述生成对应三维物体
- 参考图像:单/多视角图像引导
- 残缺扫描:以不完整点云/深度图为条件进行补全
- 工程参数:尺寸、公差等结构化数值控制(见 Parametric-ControlNet

方法谱系

文本-图像-三维级联

  1. Point-E(OpenAI, 2022):文本 → GLIDE 合成图像 → 第二扩散模型以 CLIP 嵌入为条件生成粗糙彩色点云
  2. Shap-E(OpenAI, 2023):不直接输出点云,而是编码为 MLP 隐式参数(SDF + NeRF),在该潜空间训练扩散模型 → 极快文本到三维生成
  3. 局限:基于 2D-lifting 的方法缺乏严格几何拓扑约束,生成结果卡通化、边缘模糊、结构崩溃

结构化潜空间

  1. GaussianAnything(ICLR 2025):提出点云结构化潜空间,通过 3D VAE 将多视角 RGB-D-N 渲染投影到离散点云潜变量,用 DiT 解码。关键突破:几何与纹理天然解耦。

条件扩散补全

  1. DiffComplete(NeurIPS 2023):以不完整 TSDF 为条件的概率补全,分层特征聚合 + 占用感知融合
  2. SuperPC:统一框架同时完成补全、上采样和着色

条件注入方式

方法 条件类型 注入机制
PVD 残缺扫描 以形状潜变量为条件
DiffComplete 残缺 TSDF 分层特征注入 U-Net 各层
Point-E CLIP 文本/图像嵌入 扩散模型以嵌入为条件
GaussianAnything 多视角渲染 3D VAE 投影到结构化潜空间

Counter-arguments & data gaps

  • 文本引导的质量高度依赖 CLIP/多模态模型的语义对齐精度
  • 跨模态生成的结果质量评估缺乏统一标准
  • 条件控制精度(特别是数值/工程参数)仍有显著提升空间

Sources