GroundedPlanBench：融合空间感知的机器人任务规划框架

Microsoft Research Blog2026/03/27 00:03机翻/自动摘要/自动分类

内容评分

技术含量

8/10

营销水分

5/10

摘要

GroundedPlanBench是微软提出的机器人任务规划框架，通过整合空间信息与视觉语言模型，解决长时序复杂任务中的规划与定位分离问题。该框架利用DROID数据集构建基准，采用显式/隐式指令双模式，结合SAM3模型实现精准空间定位。实验表明其在真实场景中提升任务成功率，尤其擅长处理多步骤和隐式指令任务，为机器人研究提供新方法。

正文

GroundedPlanBench是微软研究院提出的新框架，通过整合空间信息与视觉语言模型（VLMs）能力，解决机器人长时序任务规划难题。该框架基于DROID数据集构建测试基准，包含308个操控场景。任务描述采用显式指令（如'将勺子放在白色盘子上'）和隐式指令（如'整理桌子'）双重模式。V2GP系统首先检测机器人与物体的交互动作，再通过多模态语言模型生成物体描述，结合Meta SAM3模型进行空间定位，最终生成规划方案。实验数据显示，该方法在真实场景中显著提升任务成功率，尤其在处理多步骤任务和隐式指令时表现突出。研究团队由韩国大学、微软研究院和威斯康星大学联合完成，获得韩国政府IITP资助。

GroundedPlanBench：融合空间感知的机器人任务规划框架

内容评分

摘要

正文

标签