GC-VLN | LIU Xiao的读博日志

type

Post

status

Published

date

Nov 29, 2025

slug

GCVLN

summary

GC-VLN: Instruction as Graph Constraints for Training-free Vision-and-Language Navigation

Intro

背景

现有的零样本 VLN 方法大多为离散环境设计，或依赖于在连续模拟环境中的无监督训练，因此难以在真实场景中推广和部署。

为了在连续环境中实现真正无需训练的框架，我们将导航指导过程表述为图约束优化问题，通过把自然语言指令分解为空间约束来实现。该基于约束的范式通过求解约束来解码空间语义，从而在未见环境中实现零样本适应性。

方案

我们构建了一个空间约束库，覆盖 VLN 指令中提到的所有空间关系。人类指令被分解为一个有向无环图（DAG），其中包含路标节点、物体节点和边；这些元素被用作查询以检索约束库，从而构建图约束。

随后，利用约束求解器进行图约束优化以确定路标的位置，进而得到机器人的导航路径和最终目标。

为处理无解或多解的情况，我们额外构建了导航树与回溯机制。

Method

我们首先构建一个约束库（constraint library），其中包含导航指令中出现的所有空间关系。接着，将指令分解为一个有向无环图（DAG），并利用该图查询约束库，从而获取图约束（graph constraints）。然后，**约束求解器（constraint solver）**通过求解图约束优化问题来确定路径。

Overview

在 VLN 中，机器人从一个未知环境中的初始位置出发。机器人需要遵循人类提供的语言指令I，在环境中移动并最终到达目标位置。如图 1 所示，指令通常是一段文本，用于描述如何从起点移动到终点，包括导航方向、导航路径上会遇到的物体、以及导航路径与物体之间的空间关系。如果机器人在不超过t步的情况下到达距离目标位置r米以内，则视为导航成功。

如图 2 所示，GC-VLN 的整体流程包含两个主要模块：

(1) 图约束构建模块（graph constraint construction module）

(2) 约束优化模块（constrained optimization module）

首先，将原始指令分解为一个多阶段有向无环图（multi-stage DAG）G，其中包含导航所需的全部信息。然后，我们构建一个约束库，用于覆盖VLN指令中所有类型的空间关系。图G被用于查询该库，以获取节点之间的约束类型，从而构建图约束K。

在K中求解各节点的坐标被表述为一个基于空间约束的约束优化问题；而导航树用于处理约束求解器产生的坐标解数量不确定的问题，使得在无解或解不满足条件时可以进行回溯。

Graph Constraint Construction

为了处理指令 I 中长序列结构与复杂空间关系的特性，我们将 I 转换为一种结构化表示，即图约束（graph constraint）。该表示需满足以下三个条件：

不得丢失指令 I 中的任何信息。

必须显式包含指令中提到的所有物体。

必须提供明确的导航方向，以及物体与导航路径之间的空间关系。

Instruction Decomposition

Constraint Library

Graph Constraint

Constrained Optimization for Node Coordinates

图约束K被用于引导机器人的运动方向。因此，节点v∈V的坐标需要按照导航顺序依次确定。我们提出了一个基于图约束的优化框架来求解节点坐标，同时构建了一个导航树来处理解的数量不确定的问题。

Constraint Solver

Navigation Tree

实验

SOTA对比

我们在三种 VLN-CE 设置下（监督学习、零样本、无需训练）将 GC-VLN 与最新的 VLN-CE 方法进行了比较，结果如表 1 所示。GC-VLN 超越了先前的零样本方法，并在 R2R-CE 基准上比目前最先进的无需训练方法 InstructNav 的成功率高出 2%。在 RxR-CE 上，我们的表现也优于所有已有报告结果的零样本方法。在监督学习设置下，我们同样超过了一些方法，例如在 RxR-CE 上优于 NaVid。

值得注意的是，RxR 相比 R2R 是一个更具挑战性的基准。然而，我们的方法依然保持了较高的性能。

Ablation Study

图约束的影响：

在表 2 中，我们首先放宽图约束，即移除角度约束，仅保留距离约束中的最大距离限制。结果显示 SR 和 SPL 均出现显著下降。随后，我们分别移除 waypoint 约束、物体约束、单元约束（类型 1、2、4、5）以及多元约束（类型 3、6），并统一用最弱约束（类型 4）替代。GC-VLN 的性能在这些操作下均出现不同程度的下降，证明了图约束的重要性。

约束求解器与导航树的影响：

我们重新调整拓扑排序，使物体节点不再属于某个特定阶段。在解的顺序上，不再使用节点坐标解的顺序来构建导航树分支，而是采用随机顺序。在约束求解器方面，我们不再使用最大化目标函数求解坐标，而是随机采样满足约束条件的点。导航树 TTT 被简化为移除所有未探索的早期分支，并通过不保留未探索的分支完全取消回溯机制。这些改动均导致性能全面下降，证明了约束求解器与导航树的有效性。