当前路径:/wiki/page/point-e-shap-e
返回首页索引

Point-E / Shap-E

OpenAI 发布的文本到三维资产生成模型。Point-E(2022)采用级联"文本→图像→三维"管线;Shap-E(2023)进一步深化为隐式神经函数潜空间扩散。

Overview

Point-E

  • 管线:文本 → GLIDE 合成单视角图像 → 以合成图像 + CLIP 嵌入为条件的扩散模型生成百万级彩色点云
  • 速度:秒级生成
  • 局限:基于 2D-lifting,缺乏严格几何约束,生成质量有限

Shap-E

  • 改进:不直接输出点云,通过编码器将 3D 资产映射为 MLP 隐式参数(同时表征 SDF 和 NeRF)
  • 流程:在隐式参数潜空间中训练扩散模型
  • 优势:极快的文本到三维生成

共同局限

  • 生成结果卡通化、边缘模糊
  • 复杂文本指令下出现结构崩溃(缺肢体、部件融合)
  • 缺乏几何-纹理解耦 → 后续 GaussianAnything 改进

Sources