Point-E / Shap-E

OpenAI 发布的文本到三维资产生成模型。Point-E（2022）采用级联"文本→图像→三维"管线；Shap-E（2023）进一步深化为隐式神经函数潜空间扩散。

Overview

Point-E

管线：文本 → GLIDE 合成单视角图像 → 以合成图像 + CLIP 嵌入为条件的扩散模型生成百万级彩色点云
速度：秒级生成
局限：基于 2D-lifting，缺乏严格几何约束，生成质量有限

Shap-E

改进：不直接输出点云，通过编码器将 3D 资产映射为 MLP 隐式参数（同时表征 SDF 和 NeRF）
流程：在隐式参数潜空间中训练扩散模型
优势：极快的文本到三维生成

共同局限

生成结果卡通化、边缘模糊
复杂文本指令下出现结构崩溃（缺肢体、部件融合）
缺乏几何-纹理解耦 → 后续 GaussianAnything 改进

conditional-generation-3d — 条件生成总览
gaussian-anything — 结构化潜空间改进
diffusion-model-3d — 扩散模型架构

Sources

三维点云生成条件控制综述 — 2026
shap-e.pdf (arXiv) — 2305.02463，2023-05