Lazy loaded image
论文笔记
GC-VLN
字数 1983阅读时长 5 分钟
2025-11-29
2025-12-4
type
status
date
slug
summary
tags
category
icon
password
comment
color

Intro

背景
  1. 现有的零样本 VLN 方法大多为离散环境设计,或依赖于在连续模拟环境中的无监督训练,因此难以在真实场景中推广和部署。
  1. 为了在连续环境中实现真正无需训练的框架,我们将导航指导过程表述为图约束优化问题,通过把自然语言指令分解为空间约束来实现。该基于约束的范式通过求解约束来解码空间语义,从而在未见环境中实现零样本适应性。
方案
  1. 我们构建了一个空间约束库,覆盖 VLN 指令中提到的所有空间关系。人类指令被分解为一个有向无环图(DAG),其中包含路标节点、物体节点和边;这些元素被用作查询以检索约束库,从而构建图约束。
  1. 随后,利用约束求解器进行图约束优化以确定路标的位置,进而得到机器人的导航路径和最终目标。
  1. 为处理无解或多解的情况,我们额外构建了导航树与回溯机制
notion image

Method

notion image
我们首先构建一个约束库(constraint library),其中包含导航指令中出现的所有空间关系。接着,将指令分解为一个有向无环图(DAG),并利用该图查询约束库,从而获取图约束(graph constraints)。然后,**约束求解器(constraint solver)**通过求解图约束优化问题来确定路径。

Overview

在 VLN 中,机器人从一个未知环境中的初始位置出发。机器人需要遵循人类提供的语言指令I,在环境中移动并最终到达目标位置。如图 1 所示,指令通常是一段文本,用于描述如何从起点移动到终点,包括导航方向、导航路径上会遇到的物体、以及导航路径与物体之间的空间关系。如果机器人在不超过t步的情况下到达距离目标位置r米以内,则视为导航成功。
如图 2 所示,GC-VLN 的整体流程包含两个主要模块:
(1) 图约束构建模块(graph constraint construction module)
(2) 约束优化模块(constrained optimization module)
首先,将原始指令分解为一个多阶段有向无环图(multi-stage DAG)G,其中包含导航所需的全部信息。然后,我们构建一个约束库,用于覆盖VLN指令中所有类型的空间关系。图G被用于查询该库,以获取节点之间的约束类型,从而构建图约束K。
在K中求解各节点的坐标被表述为一个基于空间约束的约束优化问题;而导航树用于处理约束求解器产生的坐标解数量不确定的问题,使得在无解或解不满足条件时可以进行回溯。

Graph Constraint Construction

为了处理指令 I 中长序列结构与复杂空间关系的特性,我们将 I 转换为一种结构化表示,即图约束(graph constraint)。该表示需满足以下三个条件:
  1. 不得丢失指令 I 中的任何信息。
  1. 必须显式包含指令中提到的所有物体。
  1. 必须提供明确的导航方向,以及物体与导航路径之间的空间关系。

Instruction Decomposition

notion image

Constraint Library

notion image
notion image
 

Graph Constraint

notion image

Constrained Optimization for Node Coordinates

图约束K被用于引导机器人的运动方向。因此,节点v∈V的坐标需要按照导航顺序依次确定。我们提出了一个基于图约束的优化框架来求解节点坐标,同时构建了一个导航树来处理解的数量不确定的问题。

Constraint Solver

notion image

Navigation Tree

notion image

实验

SOTA对比

notion image
我们在三种 VLN-CE 设置下(监督学习、零样本、无需训练)将 GC-VLN 与最新的 VLN-CE 方法进行了比较,结果如表 1 所示。GC-VLN 超越了先前的零样本方法,并在 R2R-CE 基准上比目前最先进的无需训练方法 InstructNav 的成功率高出 2%。在 RxR-CE 上,我们的表现也优于所有已有报告结果的零样本方法。在监督学习设置下,我们同样超过了一些方法,例如在 RxR-CE 上优于 NaVid。
值得注意的是,RxR 相比 R2R 是一个更具挑战性的基准。然而,我们的方法依然保持了较高的性能。

Ablation Study

notion image
图约束的影响:
在表 2 中,我们首先放宽图约束,即移除角度约束,仅保留距离约束中的最大距离限制。结果显示 SR 和 SPL 均出现显著下降。随后,我们分别移除 waypoint 约束 、物体约束 、单元约束(类型 1、2、4、5)以及多元约束(类型 3、6),并统一用最弱约束(类型 4)替代。GC-VLN 的性能在这些操作下均出现不同程度的下降,证明了图约束的重要性。
约束求解器与导航树的影响:
我们重新调整拓扑排序,使物体节点不再属于某个特定阶段。在解的顺序上,不再使用节点坐标解的顺序来构建导航树分支,而是采用随机顺序。在约束求解器方面,我们不再使用最大化目标函数求解坐标,而是随机采样满足约束条件的点。导航树 TTT 被简化为移除所有未探索的早期分支,并通过不保留未探索的分支完全取消回溯机制。这些改动均导致性能全面下降,证明了约束求解器与导航树的有效性。

Qualitative Results

为了更直观地展示我们的方法,我们在模拟器和真实环境中给出了导航过程的可视化结果。如图 4 所示,机器人在模拟环境中逐步探索场景,并根据空间约束求解每个 waypoint 的位置。如图 5 所示,我们将 GC-VLN 部署到真实环境中,结果表明其在真实场景中的泛化能力非常强。
notion image

重点关注

回溯机制如何构建的?

根觉我的理解,回溯机制主要依赖导航树,如果约束求解器没能找到可行解,则进行回退。

waypoint如何选取的?

说实话我没有读懂,好像是通过设计了某种与约束一一对应的设置方法,先是LLM拆分任务,每个阶段会有object约束,然后由约束去查约束库得到路点。

个人评价

思路是对的,但是有些问题我看论文还是不能得到很好的解答,希望日后代码开源之后我能弄清楚吧。
  1. 比如穿过门,走出某个房间这种语言指令,说实话啊。我也知道穿过门就可以了,但是如何去检测这个门,在VLN的数据集中,门这个object真的很不明显,很多open ocabulary的检测方法都检测不到。
 

义父,请我喝杯蜜雪冰城吧。
notion image
notion image
 
上一篇
金铜比
下一篇
OpenIN学习笔记

评论
Loading...