EmbodiedSAM学习笔记 | LIU Xiao的读博日志

type

Post

status

Published

date

Nov 16, 2025

slug

EmbodiedSAM

summary

EmbodiedSAM: Online Segment Any 3D Thing in Real Time

前言

在具身场景中，我们希望 3D 感知模型具备以下特性：

在线性（online）：输入数据是流式 RGB-D 视频，而非预先采集的静态数据，视觉感知需要与数据采集同步执行；

实时性（real-time）：机器人规划与控制需要高速推理；

细粒度（fine-grained）：能够识别场景中出现的几乎所有物体；

高度泛化（highly-generalized）：同一个模型能够应用于不同场景，并兼容不同的传感器参数，如相机内参。由于高质量 3D 数据有限，直接在纯 3D 上训练这样的模型几乎不可行。

本文提出了一个 VFM 辅助的 3D 实例分割框架——EmbodiedSAM（ESAM），利用 SAM 的能力在在线场景中实现高精度、高速度、强泛化的 3D 实例分割。

如图 1 所示，不同于以往通过投影2D掩码到3D并使用手工策略进行融合的方法，ESAM将2D掩码提升为3D查询（3D queries），并通过迭代查询优化生成时间一致且几何一致的3D掩码。得益于基于查询的 3D 掩码表示，ESAM 能够通过简单的矩阵运算快速融合跨帧3D掩码。

具体而言，我们(1)首先从由深度图投影得到的点云中提取点级特征。随后，将SAM生成的2D掩码视为超点（superpoints），(2)并通过提出的几何感知池化模块进行掩码级特征聚合，从而生成与 SAM 掩码一一对应的 3D 查询。(3)接着，我们引入双层查询解码器对 3D 查询进行迭代优化，使查询能高效关注超点级特征并生成细粒度的点级掩码。由于每个 3D 实例掩码都与一个查询对应，因此我们可以通过并行矩阵乘法高效计算新预测的 3D 掩码与之前掩码之间的相似度，从而实现准确合并。

为增强查询特征的判别力，我们设计了三种具有代表性的辅助任务，用于估计几何、对比和语义相似性。我们在 ScanNet、ScanNet200、SceneNN与3RScan数据集上进行了大量实验，ESAM在在线3D感知模型中达到了领先的精度与速度。与离线VFM辅助3D实例分割方法相比，我们在保持强泛化性的同时，在性能上取得了大幅提升。此外，在有限数据训练的情形下，ESAM也展现了巨大的数据效率潜力。

方法（翻译）

查询提升与优化（Query Lifting and Refinement）

我个人觉得将query lifting翻译成查询提升有些奇怪，先按照GPT说的来吧

Query 指的是 transformer 或 decoder 中的 查询向量 / 查询特征，是表示物体实例的 learnable embedding。

Lifting 意味着 把 2D 信息提升到 3D 语义空间，从而得到 3D-aware query。

它指的是：将 2D mask → 转换成 3D 查询特征（3D-aware query）的过程

几何感知的查询提升（Geometric-aware Query Lifting）

双层查询解码器（Dual-level Query Decoder）

高效的在线查询合并（Efficient Online Query Merging）

损失函数

实验

核心实验

AP是如何计算的？

在 ScanNet200 数据集上的主结果

核心结论：ESAM 在在线 3D 实例分割中实现了“大幅度性能提升 + 高速性”

表2：在 ScanNet200 上训练 → 直接测试在 SceneNN / 3RScan。

结论：ESAM 的泛化能力远强于之前方法

表 3 对比的是：在 ScanNet 与 SceneNN 数据集上的 “3D 实例分割” 性能比较。

我们将方法与当前性能最强的 VFM 辅助 3D 实例分割方法以及在线 3D 实例分割方法进行比较。我们给出 ESAM 的三个版本：ESAM、ESAM-E 与 ESAM-E+FF。

ESAM 使用 SAM 作为 VFM；

ESAM-E 使用更快速的 FastSAM，以实现实时推理；

ESAM-E+FF 不仅使用 FastSAM 生成的 2D 掩码，还按照 Rukhovich et al. (2023) 的方式，将 FastSAM 主干网络提取的图像特征与点云进行融合。

ESAM分析

数据高效学习（Data-efficient learning）

即使只使用一半的训练数据，ESAM 的性能下降也并不明显。

更进一步，即使仅使用 10% 的训练数据，ESAM 仍然能够达到最先进的性能（相比 SAI3D 的 28.2 / 47.2 / 67.9）。这主要得益于 2D VFM 本身就提供了良好的初始化，因此 ESAM 中需要学习的部分能够更容易地收敛。

消融实验（Ablation Study）

几何感知池化（geometric-aware pooling）能够带来最高 1.3% 的性能提升，同时几乎不增加计算开销。

需要注意的是，单视角上的预测误差会在整个场景中累积，因此在 ScanNet-25k 上获得较高的 AP 对最终结果有着非常关键的影响。

我们还可以观察到，ESAM 的 双层设计（dual-level design） 在精度上与耗时的策略相当，而其延迟仅比全超点策略略有增加。

换句话说，双层设计兼顾了 高精度 + 高效率。

在掩码合并策略方面，我们在 ScanNet 上比较了不同的设计，并在 Table 6 中报告了 AP。结果显示：

每一种辅助任务（geometric / contrastive / semantic）对掩码合并质量都至关重要。

其中几何相似性（geometric similarity）对最终性能影响最大。

这是因为大多数掩码对可以仅通过距离关系直接排除，从而使几何特征成为最关键的判断依据。

辅助任务的可视化（Visualization of Auxiliary Tasks）

我们还对辅助任务的预测结果进行了可视化，以更全面地理解 ESAM 的行为和能力。从 Figure 5 (a) 可以观察到，即使只有局部观测，模型仍能够预测出物体的整体几何结构。Figure 5 (b) 中的 t-SNE 可视化结果进一步验证了模型成功学习到具有良好区分性的查询表示，可用于稳定的物体匹配。最后，Figure 5 (c) 展示的语义分割结果表明，ESAM 能够学习令人满意的语义表征，并具备扩展到 3D 语义分割任务的潜力。

总结

在本工作中，我们提出了 ESAM——一个高效的、能够利用视觉基础模型（VFM）进行在线、实时、细粒度且具备强泛化能力的 3D 实例分割框架。我们的方法首先通过几何感知池化（geometric-aware pooling）将 VFM 生成的 2D 掩码提升为 3D 查询（3D queries），随后通过双路径查询解码器（dual-path query decoder）对查询进行迭代优化，从而生成精确的 3D 实例掩码。在建立查询与掩码的一一对应关系后，我们进一步设计了三种辅助任务，使每个 3D 掩码拥有可区分的表示，从而能够利用矩阵运算实现快速掩码合并。

在四个数据集上的大量实验表明，ESAM 在性能、在线实时性以及泛化能力方面均取得了领先表现。我们相信，ESAM 为如何有效利用 2D VFM 进行具身感知提供了新的范式。

潜在局限性（Potential Limitations）

尽管 ESAM 取得了令人满意的性能，但仍然存在一些局限性：

实时性依赖所采用的 VFM。

当前我们使用 SAM 与 FastSAM，其中只有 FastSAM 能实现真正的实时推理。我们相信未来将会出现性能更强、功能更丰富、速度更快的 2D VFM，随着 VFM 的发展，ESAM 的性能也将随之进一步提升。

3D U-Net 与基于记忆的适配器较为沉重。

这些模块承担了 ESAM 大部分的 3D 特征提取计算，因此占据了主要推理时间。如果未来能够进一步提升 3D 主干网络的效率，ESAM 的整体速度将有望达到更高水平，这也是我们未来的研究方向。

代码

必须使用CUDA11.8来配置环境，否则在MinkowskiEngine这里会编译不通过。

参考

Code:https://github.com/xuxw98/ESAM

arXiv:

arXiv.orgEmbodiedSAM: Online Segment Any 3D Thing in Real Time

EmbodiedSAM: Online Segment Any 3D Thing in Real Time

Embodied tasks require the agent to fully understand 3D scenes simultaneously with its exploration, so an online, real-time, fine-grained and highly-generalized 3D perception model is desperately...

Zhihu:https://zhuanlan.zhihu.com/p/23105869992

义父，请我喝杯蜜雪冰城吧。