Point-E / Shap-E
OpenAI 发布的文本到三维资产生成模型。Point-E(2022)采用级联"文本→图像→三维"管线;Shap-E(2023)进一步深化为隐式神经函数潜空间扩散。
Overview
Point-E
- 管线:文本 → GLIDE 合成单视角图像 → 以合成图像 + CLIP 嵌入为条件的扩散模型生成百万级彩色点云
- 速度:秒级生成
- 局限:基于 2D-lifting,缺乏严格几何约束,生成质量有限
Shap-E
- 改进:不直接输出点云,通过编码器将 3D 资产映射为 MLP 隐式参数(同时表征 SDF 和 NeRF)
- 流程:在隐式参数潜空间中训练扩散模型
- 优势:极快的文本到三维生成
共同局限
- 生成结果卡通化、边缘模糊
- 复杂文本指令下出现结构崩溃(缺肢体、部件融合)
- 缺乏几何-纹理解耦 → 后续 GaussianAnything 改进
Related
- conditional-generation-3d — 条件生成总览
- gaussian-anything — 结构化潜空间改进
- diffusion-model-3d — 扩散模型架构
Sources
- 三维点云生成条件控制综述 — 2026
- shap-e.pdf (arXiv) — 2305.02463,2023-05