当前路径:/wiki/page/mllm-3d
返回首页索引

大语言模型与三维理解 (LLM/VLM for 3D)

将大语言模型/视觉语言模型的常识推理与零样本泛化能力引入三维点云理解与控制。代表从"被动生成"走向"主动具身理解"的范式转变。

Overview

2024-2025 年,研究重点从单纯的三维资产生成转向用 LLM 理解三维空间语义并执行推理任务。

代表方法

Point-Bind

  • 通过对比学习,在 3D 点云、2D 图像、文本、音频和视频之间建立统一联合嵌入空间
  • 基于 ImageBind 对齐先验,3D 编码器输出投影到与预训练 LLM 兼容的特征层

Point-LLM

  • 首批 3D 大语言模型之一
  • 利用 LoRA 等 PEFT 技术为 LLaMA 注入三维感知能力
  • 支持跨模态运算(3D 嵌入算术)和复杂三维空间逻辑推理

Reason3D

  • 发布时间:3DV 2025
  • 核心:弥合"大模型推理"与"三维执行"之间的鸿沟
  • 机制:LLM 在语义网络中推理匹配定位目标 → 分层掩码解码器结合 3D 注意力提取精准几何边界掩码
  • 应用:基于抽象意图的三维目标搜索、分割与精准响应定位
  • 代码Reason3D

趋势

  • 从"视觉导向"向"神经符号生成"演进
  • 未来:LLM 输出图网络结构、数学参数表达式、CAD 实体构造树(CSG)
  • 通过 Boundary-preserving score loss 实现模糊指令 → 受控工程模型的转换

Sources