RAZER论文精读 | LIU Xiao的读博日志

type

Post

status

Published

date

Jan 29, 2026

slug

RAZER

summary

RAZER: Robust Accelerated Zero-Shot 3D Open-Vocabulary Panoptic Reconstruction with Spatio-Temporal Aggregation

项目网站

https://razer-3d.github.io

摘要

学习一下别人摘要怎么写的

先强调应用：对复杂三维环境的建图与理解是自主系统感知并与物理世界交互的基础，这一过程同时依赖于精确的几何重建与丰富的语义理解。

指出现有方法的不足：尽管现有的三维语义建图系统在重建几何结构以及识别预定义对象实例方面表现出色，但它们在在线运行过程中高效构建开放词汇（open-vocabulary）语义地图方面仍缺乏灵活性。与此同时，近年来的视觉–语言模型已在二维图像中实现了开放词汇的目标识别，但尚未有效弥合从二维感知到三维空间理解之间的鸿沟。

提出挑战该领域的关键挑战在于：如何在无需训练（training-free）的前提下，构建一个统一的系统，能够在实时条件下同时完成高精度三维建图、保持语义一致性，并支持自然语言交互。

介绍本文方法为此，本文提出了一种零样本（zero-shot）三维场景理解框架，通过在线的实例级语义嵌入融合，在层次化对象关联与空间索引机制的引导下，将 GPU 加速的几何重建与开放词汇的视觉–语言模型无缝集成。该训练自由的系统通过增量式处理以及几何与语义的统一更新机制实现了优异性能，同时能够鲁棒地应对二维分割结果中的不一致性。

最后介绍实验所提出的通用三维场景理解框架可广泛应用于多种任务，包括零样本三维实例检索、分割与目标检测，从而实现对未见过对象的推理以及对自然语言查询的理解。

Introduction

论文先看图1，这个图比较易读。RDB+D+Pose作为系统输入。3D实例跟踪以及时空特征聚合（这两个是论文的核心）之后得到全景语义地图。该语义地图支持三种下游任务。

先强调具有语义的三维地图的重要性 在动态环境中构建具有语义意义的三维地图的能力，对于从机器人导航与操作到增强现实以及场景理解等诸多应用而言至关重要。尽管在三维几何重建和二维语义理解这两个方向上已经分别取得了显著进展，但将二者融合为一个能够实时运行、可处理任意对象并支持自然语言交互的统一系统，仍然是计算机视觉与机器人领域中的一项根本性挑战。这种集成对于智能系统而言尤为关键，它使系统不仅能够感知环境的几何结构，还能够理解并推理其中的物体及其相互关系。

讲现有方法的不足 传统三维建图方法（几何导向）的不足：

只关注几何精度，缺乏语义与实例层面的理解

无法支持物体级推理与高层次场景理解

作者引出需要三维语义实例建图（3D semantic-instance mapping）

3D-to-3D 方法的不足：

计算开销大：稠密点云或体素数据规模庞大，处理效率低

实时性差：难以满足在线或实时建图需求

训练受限：大规模、标注完备的三维训练数据稀缺

系统复杂度高，难以在资源受限平台（如移动机器人）部署

2D-to-3D 方法

语义一致性难以保证：二维分割结果在时间和视角上不稳定，易导致三维语义碎片化

对数据和训练依赖强：通常需要大量标注数据

实时与在线能力受限：许多方法只能离线运行，难以处理流式数据

错误传播问题：二维分割误差会被投影并累积到三维地图中

开放世界适应性差：依赖预定义类别集合，难以识别和建模未见过的新物体

我做个总结，作者其实想解决的是核心问题就是三维语义建图

本文工作提出了一种新颖的零样本（zero-shot）框架，通过将几何重建与开放词汇的视觉–语言模型无缝集成，有效应对上述挑战。核心洞察：通过维护统一的语义嵌入空间并采用高效的空间索引策略，可以在应对二维分割结果中固有不确定性的同时，实现鲁棒的实时性能。该方法在保持几何与语义一致性的前提下，实现了与三维环境的自然语言交互。本框架通过一系列关键创新实现了实时、零样本的三维语义建图。其中，方法的核心在于：无需全局优化即可保持时间一致性，这一目标通过实例级语义嵌入融合与高效的空间索引与关联策略相结合来实现，从而支持快速的三维实例跟踪。

主要贡献：

提出了一种模块化的零样本三维语义建图框架，利用预训练的视觉–语言模型，在无需训练或微调的情况下，支持多种开放词汇的三维场景理解任务。

设计了一种在线的实例级几何–语义融合算法，面向 RGB-D 数据流，实现了无需全局优化的实时建图。

提出了一种鲁棒的物体关联策略，将 R-tree 空间索引与最小代价二分图匹配相结合，用于高效的三维实例跟踪，从而有效应对二维分割中产生的不一致掩码与标签问题。

构建了一种统一的几何–语义更新机制，通过实例级跟踪保证时间一致性，并支持与三维环境的自然语言交互。

PROBLEM FORMULATION

提出了一种开放词汇（open-vocabulary）的三维场景理解系统，该系统处理已知相机位姿的 RGB-D 数据流，以构建语义信息丰富的三维地图。不同于传统受限于固定物体类别体系的建图系统，本文方法通过连续的语义嵌入空间实现了对物体的无限制识别与跟踪。

在每一个时间步t，系统接收一幅 RGB 图像,一幅深度图像，以及对应的相机位姿，其中和分别表示图像的高度与宽度。与依赖预定义标签空间的传统闭集方法不同，我们的零样本方法利用一个预训练的视觉–语言分割模型，该模型能够识别广泛的物体类别。具体而言，我们不对该模型进行微调或蒸馏，而是直接利用其零样本能力，为任意感兴趣的概念生成语义嵌入。

本文的一项关键创新在于：维护一种统一的表示形式，在连续嵌入空间中同时编码几何属性与语义属性。不同于将物体离散地分类到预定义类别中，我们借助视觉–语言模型将物体嵌入到一个高维语义空间，其中语义相似的概念在空间中自然聚集，从而使系统能够在无需重新训练的情况下，于运行时识别新的物体类别。

因此，我们的系统支持以下功能：

使用截断符号距离函数（Truncated Signed Distance Function, TSDF）

，截断距离为，对场景进行体素化三维重建。

采用带方向的三维包围盒（Oriented Bounding Boxes, OBBs）

，其中，分别表示物体的中心、朝向与尺度，实现物体检测与 6-DoF 跟踪。

💡

bi=(c,R,s)是“带方向的包围盒”，c是中心点3D坐标，R是旋转矩阵，s是box的尺度。

维护一组语义嵌入表示

，其中通过预训练的视觉–语言模型累积物体的开放词汇语义特征。

基于时间一致性与语义稳定性，利用置信度分数

对物体实例进行概率式筛除（pruning）。

在线融合新观测数据，对几何与语义信息进行增量式更新，从而在多视角条件下保持鲁棒的实例身份一致性。

由于系统以零样本方式运行，在每个时间步，系统都会使用一个冻结的、预训练的二维模型从当前 RGB-D 帧中提取语义特征，并将其与此前在三维空间中积累的观测信息进行融合。只要预训练的二维骨干网络能够识别相应物体，该方法便能够泛化到新的物体类别。

本工作的一个根本挑战在于：在如此不受约束的开放词汇场景下，如何维持鲁棒的物体跟踪与一致的语义标注。

💡

这个问题是确实存在的。

当系统首次检测到某个物体时，其初始语义嵌入往往仅反映不完整或被遮挡的视角。随着更多视角的引入，系统通过时间融合函数逐步更新语义表示：。其中表示在时间步新提取的语义特征。该过程通过几何一致性约束与遮挡感知的更新机制，即使在单帧观测信息不完整的情况下，也能有效保持物体实例身份的连续性。

方法

A 体素化场景重建（Volumetric Scene Reconstruction）

我们将环境离散化为一个体素网格，并维护一个 TSDF 体（TSDF volume）。

对于位于位置的每一个体素，其存储的状态元组定义为：

其中：

表示该体素到最近表面的截断符号距离（TSDF 值）；

表示d的累计置信权重；

表示体素的RGB颜色信息；

表示体素对应的实例标签索引；

是一个直方图，用于统计该体素中各实例标签被观测到的频率。

💡

这里写R^6真的合适吗？d是1维，w是1维，c是3维，l是1维，h这个东西会复杂一些。

在每一帧新的输入到来时，我们通过标准的加权平均策略，将新的深度观测融合进TSDF体中：。其中，表示由当前深度图计算得到的符号距离值，而与分别为历史值与新观测对应的置信权重。

当体素位于新观测表面截断距离范围内时，其体素颜色与实例标签直方图也会随之更新。该机制确保被识别为同一物体的空间区域能够逐步积累一致的实例标签历史。

通过上述过程，系统持续地细化一个稠密的三维表示，该表示同时编码了几何结构与实例级语义标签。不同于仅更新固定语义标签的传统方法，在我们的开放词汇设定下，系统能够动态地引入来自预训练模型的语义线索，即使随着时间推移出现新的物体类别，也无需重新训练即可加以整合。

💡

读到这里我觉得这个工作可能是源自于Voxblox → C blox → voxblox++ → Voxgraph 这一系列系统性的体素建图方案。

B 三维目标检测（3D Object Detection）

我们的检测与跟踪系统通过联合利用几何与语义线索来实现三维目标感知。具体而言，系统首先使用一个开放词汇的视觉–语言分割模型对每一帧 RGB 图像进行处理。该模型能够为其在视觉上可区分的任意物体生成实例掩码，且不受限于有限的类别集合：

由于该方法采用零样本（zero-shot）设置，我们不进行任何额外的训练或蒸馏，而是直接依赖模型在视觉–语言数据上预训练所获得的知识来分割感兴趣的物体。在复杂杂乱的场景中，该模型可能会产生大量实例掩码，其中可能包含误检（false positives）。因此，可以通过基于置信度的阈值或启发式规则对不合理的掩码进行过滤。

a) 三维点云提取（3D Point Extraction）

对于集合中的每一个实例掩码，我们从深度图中提取其对应的三维点。具体而言，对于每一个位于掩码内的像素，我们将其反投影到三维空间中：

其中表示基于相机内参的反投影函数。本文假设相机已进行精确标定，以确保三维点的正确空间定位。

b) 基于三维聚类的物体分离（3D Clustering for Object Separation）

尽管在二维空间中，一个实例掩码通常对应一个物体，但由于遮挡或掩码重叠的存在，二维与三维物体边界之间可能出现不一致。为此，我们在点集上执行三维DBSCAN聚类，基于点的空间密度将不同的物体实例区分开来。

DBSCAN 的参数（例如邻域半径以及最小点数阈值）需要进行合理设置，以在过度合并与过度分裂之间取得平衡。

c) 带方向包围盒（OBB）拟合（Oriented Bounding Box Fitting）

对于每一个得到的三维点云簇，我们使用主成分分析（PCA）计算其带方向包围盒（OBB）。给定某一聚类对应的点集，首先计算其质心：

以及协方差矩阵：

对协方差矩阵进行特征分解，即可得到主轴方向。

为确保右手坐标系，在必要时通过对第三个主轴进行重新定向。

随后，通过将点云投影到每一条主轴上来计算包围盒在各方向上的尺寸：

最终，每一个目标检测结果可由三元组来表示，分别对应物体的中心位置、主轴方向（朝向）以及包围盒尺寸。

💡

上述步骤最终的产物是一个3D的BBOX，这套方法估计应用于Lidar会有难度。对点云的密度有要求

C 基于R-Tree的层次化关联与跟踪（R-Tree Based Hierarchical Association for Tracking）

在获得新的 OBB 检测结果之后，需要将其与前一时刻已跟踪的物体实例进行关联。由于实时系统往往需要同时跟踪数十个物体，该过程必须具备高效性。

💡

R-Tree介绍：https://blog.csdn.net/jinking01/article/details/115719744

a) R-Tree 组织结构（R-Tree Organization）

我们将已跟踪物体的包围盒存储在一棵 R-tree 中，以支持期望时间复杂度为的空间查询。其中，每个被跟踪物体的带方向包围盒都会被转换为一个轴对齐包围盒（AABB）：

💡

轴对齐包围盒（Axis-Aligned Bounding Box, AABB）是一个边永远与坐标轴平行的长方体，用来“粗略但快速”地包住一个物体。

在三维里：

AABB 是一个边平行于 x / y / z 轴的长方体

用两点表示就够了：

并将该存储在 R-tree 的叶节点中。R-tree的内部节点递归地存储能够包围其子节点的最小AABB，从而构建起一个空间层次结构，用于在查询过程中有效剪枝，仅保留与目标位置重叠或邻近的物体。

💡

R-Tree = “给空间里的东西建一个层次化索引，让你能很快找到‘附近的物体’。”

b) 基于 R-Tree 查询的候选检索（Association via R-Tree Query）

对于一个新的检测结果，我们同样生成其对应的 AABB，并利用该 AABB 对 R-tree 进行查询，仅检索那些与其 AABB 相交或处于一定距离范围内 的已跟踪物体。

该步骤将候选集合从全部跟踪物体大幅缩减为一个规模可控的子集。

c) 候选匹配与匈牙利算法（Candidate Matching and Hungarian Algorithm）

在上述候选子集中，我们通过二分图匹配的方式确定最终关联关系：

其中：

表示基于三维 IoU（交并比）的几何不相似度；

表示语义距离度量。当系统为每个物体维护一个嵌入向量时，可同时融合形状特征与开放词汇语义特征（详见第 IV-E 节）；

是赋值矩阵的元素，用于施加一对一匹配约束。

我们采用 匈牙利算法（Kuhn–Munkres）来求解赋值矩阵，其时间复杂度为，其中为候选物体的数量。得益于 R-tree 查询机制，通常较小，从而使实时匹配在计算上可行。

未被匹配的新检测结果将生成新的跟踪轨迹；而对于连续帧未被匹配的已跟踪物体，系统将对其进行剔除（pruning），除非其语义置信度较高（以应对长时间遮挡的情况）。该剔除策略仅在当前相机视锥范围内生效；物体在全局层面的持续存在性则由语义地图维护，从而能够处理长期遮挡、视角变化以及机器人跨房间运动引起的空间位移等情况。

💡

现在AI那边的很多论文，采用的是直接计算重叠率以及语义相似度。本文的工程实现应该会更好一些。

D. 增量式 OBB 更新（Incremental OBB Updates）

对于每一个成功匹配的物体实例，我们通过融合新观测到的三维点云对其 OBB 进行增量式更新。这一过程在物体仅被部分观测或其姿态随时间发生变化的情况下尤为重要。

a) 增量式协方差计算（Incremental Covariance Calculation）

设物体在时间步时已累计的点云统计量包括：散布矩阵（scatter matrix）、质心，以及累计点数。在时间步t，新的检测结果贡献了个三维点，其对应的质心为，散布矩阵为。

我们按照如下方式进行更新：

由此可得新的协方差矩阵：

通过对进行特征值分解，我们能够获得更新后的主轴方向与包围盒尺寸，从而根据新暴露的物体部分对包围盒进行扩展或收缩。

b) R-Tree 同步更新（R-Tree Synchronization）

在OBB 被更新为。之后，我们将其重新转换为对应的 AABB：

并据此更新该物体在 R-tree 中的索引条目。该步骤确保后续的空间查询能够准确反映物体当前最新的空间范围。

由于该方法不依赖任何额外监督或蒸馏过程，系统能够以零样本方式处理未见过的物体类型，并在不断变化的场景条件下保持良好的灵活性与适应性。

E. 开放词汇语义嵌入管理（Open-Vocabulary Semantic Embedding Management）

本系统的核心在于对被跟踪物体的开放词汇语义嵌入进行有效管理。对于每一个物体实例，系统维护一个语义状态，其中包含一个语义嵌入库，最多存储三个概念级语义嵌入，并为每个嵌入对应维护一个置信度分数，其中。这种多嵌入表示方式使系统能够在物体身份存在不确定性时，同时保留多种语义假设，这对于处理语义歧义情况以及新颖物体尤为关键。

当物体在时间步被首次检测到时，我们通过骨干网络提取其对应的视觉–语言特征。给定实例掩码，我们通过掩码引导的特征聚合来计算初始语义嵌入：

。

其中表示掩码中有效像素的数量。该归一化的池化操作生成一个固定维度的嵌入向量，能够在不受掩码大小影响的情况下有效表征物体的语义属性。

随着观测数据的不断累积，语义嵌入库会根据语义相似度与置信度分数进行动态更新。对于一个新的观测嵌入及其对应置信度，系统首先计算其与已有嵌入之间的相似度：

若存在，其中为相似度阈值，则对最相似的已有嵌入进行更新：

否则，若当前嵌入库，则将作为一个新的语义假设加入嵌入库。

该机制使系统能够在保留多种语义解释的同时，对语义一致的观测进行融合与巩固。

F. 语义地图管理（Semantic Map Management）

系统在体素层面与物体层面同时维护语义一致性。对于每一个体素，系统维护一个关于实例标签的直方图，以及其对应的最大似然标签。为提升计算效率，这些统计量仅在物体OBB所覆盖的体素范围内进行更新。

针对已跟踪的物体实例，系统采用一种基于支持度（support-based）的剔除机制。对于物体，设其包围盒体积为，我们计算其体素支持率：

当某个物体在连续k帧中始终具有较低的支持率（即）时，该物体将被视为潜在的剔除候选。然而，对于语义置信度较高的物体（即），即便其支持率在短时间内下降，系统仍会继续维持其跟踪状态，以有效应对局部遮挡等情况。

💡

注意这里的实例标签不是chair、table之类的简单的语义标签。而是object的id，obj 1，obj 2，obj 3这样的。

💡

所以局部遮挡导致的语义跳变是一个challenge，文章用来各种方法来解决。

G. 系统集成（System Integration）

完整系统以一个紧密耦合的流水线形式运行，在整个过程中同时维护几何一致性与语义一致性。每一帧输入的RGB-D数据。首先通过对符号距离的加权平均融合来更新体素化重建结果，从而为系统提供一个精确且稳定的几何基础。随后，视觉–语言模型对进行处理，生成实例掩码集合。这些掩码结合对应的深度信息被提升（lift）到三维空间，形成对应的三维点云。所得点云随后按照前述方法执行DBSCAN聚类以及基于PCA 的 OBB 计算。

在目标跟踪阶段，系统利用 R-tree 空间索引进行高效的候选物体筛选，并通过对代价矩阵执行匈牙利算法匹配来确定最终的关联结果。对于成功匹配的物体实例，系统会执行一系列同步更新操作：

在几何层面，通过增量式协方差计算对物体状态进行细化，在无需存储历史点云的情况下持续保持准确的 OBB 估计；

在语义层面，依据观测质量与相似度度量，将新的观测信息融合至语义嵌入库，从而更新物体的语义状态；

同时，系统会在更新后的OBB边界内，对体素的实例标签直方图进行更新，以维持空间上的语义一致性。

在地图维护阶段，系统利用体素支持率与语义置信度分数来评估物体实例的持续存在性。该集成式设计通过发挥不同信息源的互补优势，实现了鲁棒的开放词汇建图能力：几何一致性为物体跟踪与分割提供稳定约束，而语义嵌入则用于消除歧义，并在大幅视角变化下维持物体身份的一致性。

其中，多假设语义嵌入库在处理部分观测引发的不确定性时尤为关键，它既允许系统在证据不足时保留多种语义解释，又能够在获取更多观测后逐步完成语义收敛。几何与语义组件之间的紧密耦合使系统能够有效应对物体遮挡、未知物体类别以及视角变化等复杂场景，同时保持一致且稳定的语义地图。

这种统一的几何–开放词汇语义表示进一步支持了一系列高层应用，包括在线三维实例分割、三维实例检索以及三维视觉指代理解（visual grounding），且无需额外的三维领域训练。

H. 在线三维实例分割（Online 3D Instance Segmentation）

尽管本文方法已经在系统内部维护了实例级物体包围盒以及逐体素的实例标签直方图，但其还能够进一步直接输出场景的三维实例分割结果，具体过程如下：

每一个被跟踪的物体实例均对应一个唯一的标识符以及一个包围盒。在体素融合阶段，所有位于包围盒内的体素都会在其标签直方图中累积对应的实例标识。

当多个物体在三维空间中发生重叠时，系统最多保留 3 个语义假设，通过第 IV-E 节所述的方式在时间维度上进行融合，并依据第 IV-F 节中定义的体素支持率进行筛除。

因此，在任意时刻，TSDF 体中的每一个体素都携带一个实例标签（来源于某个）。通过将所有具有相同实例标签的体素进行聚合，即可获得物体的完整三维实例掩码。

由于上述过程是针对每一帧新的RGB-D输入以增量方式执行的，因此系统能够实现在线的三维实例分割：在接收到第帧数据后，系统即可直接查询 TSDF 体，获取当前时刻的三维实例分割结果。

该能力对于诸如机器人操作等应用尤为重要，在此类场景中，机器人需要在实时条件下获知每个物体的体素级空间范围。值得注意的是，即使场景中出现了新的物体类别（例如不属于任何固定类别体系的对象），预训练模型仍能够在二维图像中将其分割出来，而本文所提出的pipeline也能够在三维地图中生成与之对应的三维实例表示。

💡

SDF 体中的每一个体素都携带一个实例标签,这个表述应该有问题吧？只有被检测过属于某个obb的体素会有。

I. 三维实例检索（3D Instance Retrieval）

系统为每一个被跟踪的物体实例维护的开放词汇语义嵌入，使其能够通过文本查询或视觉查询实现灵活的三维实例检索。每个物体实例都存储了由预训练视觉–语言模型生成的多个语义嵌入（详见第 IV-E 节）。

在基于文本的检索场景中，查询文本及其对应的提示（prompt）将通过模型的语言编码器进行处理，得到查询嵌入向量。随后，系统通过计算查询嵌入与每个被跟踪物体的语义相似度来完成检索，其中相似度定义为该物体所有语义嵌入中与查询嵌入的最大余弦相似度。

基于该相似度得分，系统可以对物体实例进行排序，或采用相似度阈值进行筛选，超过该阈值的物体将被视为匹配结果。匹配到的物体可通过其三维包围盒或三维实例分割掩码进行可视化，从而支持用户或机器人系统与环境中的物体进行物理交互。

得益于语义嵌入的零样本特性，系统能够使用任意自然语言描述进行三维实例检索，而无需进行额外训练。

实验

我们通过在多个基准任务上的评估，验证了所提出框架的模块化特性与有效性，评测内容涵盖三维实例分割、实例检索以及语义分割等任务。实验选用了五个广泛使用的室内数据集：SceneNN [58]、ScanNet [59]、ScanNetv2 [60]、ScanNet200 [61] 以及 Replica [62]。

接下来，我们将依次介绍各个数据集，说明所采用的评价指标，并给出与近期方法进行对比的全面实验结果。

A. 基于建图的三维实例分割（Mapping-based 3D Instance Segmentation）

三维实例分割是场景理解中的一项关键任务，其目标是在三维空间中识别并区分独立的物体实例。与语义分割不同，三维实例分割需要对同一类别的多个物体进行区分，这在复杂的室内环境中尤为具有挑战性。本文旨在展示所提出框架在三维实例分割任务中的优越性能，并将其与现有的体素建图技术进行比较，包括基于 TSDF 的方法、基于图的超点（super-point）策略以及几何–语义融合方法。如实验结果所示，本文方法在准确性与效率方面均显著优于这些传统方法。

SceneNN 是一个基于 RGB-D 的室内数据集，包含 100 余个重建完成的室内场景，数据以 RGB-D 视频的形式采集。每个场景均以带纹理的三角网格模型形式提供，并附带逐顶点的语义与实例标注。该数据集还包含详尽的物体实例标签、相机轨迹、三维包围盒以及原始 RGB-D 帧，因此非常适合用于评估三维实例分割、语义分割与实例检索等任务。

我们在 SceneNN [58] 数据集上开展实验，并按照文献 [67] 所提出的评测设置，将所提出的方法与多种当前先进方法 [10]、[20]、[63]–[67] 进行了对比。实验采用平均精度均值（mean Average Precision, mAP） 作为评价指标，其中 IoU 阈值设定为 0.5（mAP@50）。按照通行做法，首先在真实相机位姿（GT poses）条件下运行各方法。此外，为验证方法在真实应用场景中的鲁棒性，我们还使用 ORB-SLAM3 [68] 估计的相机位姿对所有方法进行评测。

在基于 SLAM 的实验设置中，我们参考[67]的评估方式，仅对 [10]、[20]、[64]、[67] 进行比较。如 表 I 所示，本文方法在 SceneNN 数据集上取得了显著优于现有方法的性能。在使用真实相机轨迹的情况下，本文方法达到了 79.15% 的 mAP@50，超过了此前性能最优的 VolumePanoptic（78.66%）。该性能提升在各个单独序列上均表现稳定，其中在序列 11 和 255 上取得了满分成绩。

在使用 ORB-SLAM3 估计轨迹的条件下，本文方法仍然保持了鲁棒的性能（62.3% mAP@50），显著优于 VolumePanoptic（58.82%）及其他对比方法。这一结果进一步验证了所提出框架在存在位姿误差的真实场景中的有效性。

💡

这部分实验实际上比较的是obj1 obj2这些实例标签分割的怎么样。不关系类别名。

B. 三维开放词汇实例分割（3D Open-Vocabulary Instance Segmentation）

我们在 ScanNet200 数据集上评估了所提出框架在三维实例分割任务中的性能，并采用交并比（Intersection over Union, IoU）和平均精度（Average Precision, AP）作为评价指标。IoU 用于衡量预测实例与真实实例之间的重叠程度，而 AP 则在多个 IoU 阈值（25% 和 50%）下对模型性能进行综合评估，将精度（precision）与召回率（recall）整合为单一指标。这些评价指标能够全面反映模型在复杂三维场景中精确分割单个物体实例的能力。

此外，我们还报告了构建场景表示所需的平均计算时间，该时间在 RTX 4090 GPU 上以真实时钟时间（wall-clock time）进行测量。对于本文方法，我们以秒为单位给出了处理单个场景所需的平均时间。

ScanNet200 数据集包含 200 个多样化的语义类别，并根据类别在数据集中出现的频率划分为三类：

Head 类别（66 个最常见类别），

Common 类别（68 个中等频率类别），

Tail 类别（66 个低频类别）。

该数据集覆盖了广泛的室内物体类别，为在真实场景下对实例分割性能进行全面评估提供了良好的测试平台。

如 表 II 所示，本文提出的方法 RAZER 在多个指标上取得了当前最优（state-of-the-art）性能，总体达到了 24.7% mAP、31.7% mAP@50 以及 36.2% mAP@25，在大多数评价指标上均超越了现有方法。具体而言，RAZER 在 Head 类别和 Common 类别上表现尤为突出，分别取得了 27.8% 和 24.3% 的 mAP，同时在 Tail 类别上也保持了具有竞争力的性能（21.6%）。

此外，在计算效率方面，RAZER 同样表现优异，处理单个场景仅需 24.32 秒，比此前的方法快了一个数量级以上。例如，OpenMask3D 和 SAM3D 分别需要 553.87 秒 和 482.60 秒 才能完成同样的任务。

C. 三维开放词汇语义分割（3D Open-Vocabulary Segmentation）

我们在 ScanNet 和 Replica 数据集上对所提出框架在三维开放词汇语义分割任务中的有效性进行了评估。对于语义分割任务，我们采用平均交并比（mean Intersection over Union, mIoU）和像素级准确率（pixel-wise accuracy）作为评价指标。mIoU 通过在所有类别上计算预测结果与真实标注之间的平均重叠程度，在评估过程中能够有效平衡高频类别与低频类别的表现；像素级准确率则衡量被正确预测的像素所占比例，是一种直观但对类别不敏感的指标。这些评价指标能够从多个角度刻画语义分割模型的性能。

在定量评估中，我们通过对真实三维网格（ground-truth meshes）的顶点进行标注，并与预测结果进行对比，计算三维语义分割的 mIoU 与 准确率（mAcc）。此外，我们还报告了根据真实标签频率加权的指标，包括 f-mIoU 和 f-mAcc。

ScanNet 数据集由于其多样化的室内环境、变化的光照条件以及复杂的空间布局，为语义分割任务带来了较大挑战。数据集中丰富的物体类别在尺寸、形状与纹理方面差异显著，使其成为评估开放词汇方法泛化能力的理想测试平台。此外，场景中普遍存在的局部遮挡以及不同区域间变化显著的物体密度，也进一步考验了模型在解析上下文关系方面的能力。如表 III所示，本文方法在 ScanNet 数据集上取得了显著优异的性能，在使用 OVSeg 作为骨干网络时，达到了 0.393 mIoU、0.508 f-mIoU 以及 0.601 f-mAcc。相比之下，本文方法几乎将 HOV-SG（ViT-H-14） 的 mIoU（0.222）提升了一倍。这一性能差距充分体现了本文提出的语义特征传播机制的有效性，该机制能够更好地保留细粒度语义信息并更加精确地处理类别边界。

Replica 是一个高度逼真的室内场景数据集，主要面向仿真与具身感知（embodied perception）任务。该数据集包含 18 个高密度重建的室内环境，以高分辨率、带纹理的三维网格形式提供，并附带语义与实例标注。Replica 为语义分割和实例分割算法提供了逼真的仿真与评估环境，是验证模型在仿真到真实（simulation-to-real）迁移能力方面的重要基准。

在 Replica 数据集上，我们同样采用 mIoU 与 平均准确率（mAcc） 作为评价指标，并报告与以往工作一致的 f-mIoU 和 f-mAcc（不包含背景类别）。如 表 III 所示，在使用 OVSeg 骨干网络的情况下，本文方法在 Replica 数据集上取得了 0.320 mIoU、0.553 f-mIoU 以及 0.414 f-mAcc，显著优于此前的最先进方法。与 HOV-SG（ViT-H-14）（0.231 mIoU、0.386 f-mIoU、0.304 f-mAcc）相比，本文方法在所有评价指标上均取得了明显提升。

D. 实例检索（Instance Retrieval）

ScanNet [59] 是一个 RGB-D 视频数据集，包含约 1,500 个房间扫描场景，并重建为带纹理的三维网格模型，同时提供了细粒度的语义与实例级标注。ScanNetv2 [60] 作为其更新版本，对标注进行了进一步优化，包含 1,513 个场景，通常划分为训练集、验证集和测试集。ScanNet200 [61] 在此基础上扩展了 200 个精细的语义类别标注，显著提升了标注的细致程度。这些数据集由于其在多样化室内环境中提供了丰富而精确的标注，广泛用于 三维语义分割、实例分割以及实例检索 等任务的基准评测。

我们在 ScanNetv2 数据集上评估了所提出框架的三维实例检索性能。评测设置遵循文献 [69]，其中将 ScanNetv2 中的 “other furniture” 类别排除，并采用实例分类的 Top-1 准确率作为评价指标。实例分类直接基于本文框架所生成的 定向三维包围盒（OBB） 对应的特征嵌入来完成。

如 表 IV 所示，本文方法在三维实例检索任务中取得了SOTA性能，在所有类别上实现了 61.2% 的平均 Top-1 准确率。该结果优于 OpenIns3D（60.8%），并显著超过 Uni3D（45.8%）和 CLIP2（38.5%）等方法。值得注意的是，本文方法在多个具有挑战性的类别上表现尤为突出，例如在床（85.3%）、桌子（76.5%）、门（72.3%）、窗户（74.6%）、书架（73.2%）、操作台（81.2%）、书桌（83.4%）、窗帘（74.8%）、浴缸（58.2%）、淋浴间（87.2%）、马桶（92.3%）以及洗手池（86.8%）等类别上均取得了最高准确率。

这种在多样化物体类别上的稳定表现，充分验证了本文所采用的特征表示的鲁棒性。此外，框架中集成的三维定向包围盒（OBB）检测与跟踪机制在取得上述性能中发挥了关键作用，该机制能够实现更精确的物体定位，并在整个场景重建过程中保持实例身份的时间一致性。

E. 运行时分析（Runtime Analysis）

我们对所提出框架进行了详细的运行时间分析，以评估其在 SceneNN 数据集上相较于当前最先进的语义建图框架 VolumePanoptic [67] 的计算效率。表 V-E 给出了两种方法在各个处理模块上的逐组件运行时间对比。

对于 VolumePanoptic [67]，其计算流程由多个阶段组成：

二维实例分割（216.0 ms），用于在 RGB 图像中进行初始的物体检测与分割；

超点（super-point）分割（70.3 ms），用于将三维点云分组为连贯的表面片段；

图结构更新（127.2 ms），用于维护分层场景表示；

语义正则化（324.0 ms，每张地图仅执行一次），用于在超点层面细化语义标签；

实例细化（9.4 ms，每张地图仅执行一次），用于解决实例歧义问题。

相比之下，我们的方法 RAZER 在所有组件上都实现了显著更快的处理速度。在二维实例分割阶段，通过优化的网络结构，将计算时间降低至 82.3 ms。我们的 三维 OBB 检测模块 每帧仅需 1.7 ms，而高效的 三维 OBB 跟踪模块 仅需 18.4 ms。此外，语义嵌入更新模块 的运行时间仅为 0.8 ms，充分体现了所提出特征传播机制的轻量化特性。

与 VolumePanoptic 依赖计算量巨大的超点分割不同，我们的方法采用了一种更加高效的定向包围盒（OBB）检测算法，直接从点云中估计几何基元，每帧仅需 1.7 ms。该设计在该组件上实现了 41 倍的加速，避免了密集的逐点分组操作。

在 三维 OBB 跟踪模块（18.4 ms）中，我们的方法与 VolumePanoptic 的基于图的建模策略形成了根本性差异。VolumePanoptic 需要维护并更新一个复杂的图结构（127.2 ms），其中节点表示超点，边编码空间与语义关系；而我们的方法通过 OBB 表示物体实例，直接进行高效的空间关联与运动估计，避免了图结构操作所带来的额外开销。该简化不仅使计算时间减少了约 85%，还通过消除在初始分割噪声条件下图结构可能引发的级联误差，提高了系统的鲁棒性。

此外，我们的方法充分利用了刚体物体的内在几何约束，在不依赖不稳定的逐点特征对应关系的情况下，实现了更加一致、稳定的跨时间跟踪。语义嵌入更新模块再次展现出其高效性（0.8 ms），相比于需要多轮消息传递的复杂图网络，我们仅通过高效的特征加权平均与异常值剔除，即可在紧凑的 OBB 表示上完成语义一致性的维护。

总体而言，我们的框架实现了平均每帧 103.2 ms 的总运行时间，相较于 VolumePanoptic 的 413.5 ms（外加 333.4 ms 的一次性地图处理开销），实现了约 4 倍的加速。这一显著的效率提升，使得所提出的方法在保持 表 I 所示优越性能的同时，更加适用于实时应用场景，尤其是在机器人领域的三维场景理解任务中。

准确性提升与计算开销的大幅降低相结合，使得该框架能够部署在资源受限的平台上，为在复杂环境中执行自主导航、物体操作以及人机交互等任务提供了可能，这些应用均对精细的语义理解能力提出了较高要求。

此外，表 VI 进一步展示了该方法在 Replica 数据集上的效率优势。我们的方法仅需 3 分 48 秒 即可完成整个场景的处理，显著优于 OVO-mapping（8 分 17 秒）、OpenNeRF（19 分 3 秒），尤其是 HOV-SG（11 小时 12 分）。这一巨大的处理时间差异充分体现了本文框架在计算效率方面的突出优势，使其具备在真实世界大规模场景中部署的实际可行性。

这些计算性能上的提升主要得益于本文框架的模块化设计，该设计使得场景与物体的特征嵌入能够被快速更新与计算，从而高效支持 三维开放词汇语义分割 等任务。

实验对照表

我让GPT帮我总结了一下各个饰演的区别

实验	官方名称	评测核心问题	评测粒度	你真正交给评测的输出	是否需要语义类别	使用的数据集
A	Mapping-based 3D Instance Segmentation	能否把不同物体实例在 3D 中分开	实例级（object）	3D 实例 mask（object ID）	❌ 不需要	SceneNN
B	3D Open-Vocabulary Instance Segmentation	能否分开实例 + 说清楚实例是什么	实例级（object）	实例 mask + 实例语义类别	✅ 必须	ScanNet200
C	3D Open-Vocabulary Semantic Segmentation	每个点/体素是什么语义	点/体素级	每个点/体素的语义类别	✅ 必须	ScanNet, Replica
D	3D Instance Retrieval	给定文本/类别，能否在 3D 中找到对应实例	实例级（object）	实例 ID（排序或 Top-1）	查询时需要	ScanNetv2

结论

我们提出了一种新颖的零样本实时三维语义建图框架，通过统一的嵌入空间将几何重建与语义理解紧密结合。该框架通过融合高效的空间索引机制与实例级语义融合策略，在无需全局优化的情况下，实现了对流式数据的高效处理，并展现出优越的性能。该方法能够在实时条件下有效应对不一致的二维分割结果，同时保持几何一致性与语义一致性，在开放词汇三维场景理解方面取得了显著进展。大量实验结果验证了该方法在多个基准任务上的有效性，同时保持了适用于机器人应用的实时性能。本文工作为具身智能系统的研究开辟了新的方向，通过融合几何、语义与语言理解能力，使智能体能够在非受限环境中实现更加复杂和自然的人机交互。