GroundedPlanBench:融合空间感知的机器人任务规划框架
Microsoft Research Blog2026/03/27 00:03机翻/自动摘要/自动分类
5 阅读
内容评分
技术含量
8/10
营销水分
5/10
摘要
GroundedPlanBench是微软提出的机器人任务规划框架,通过整合空间信息与视觉语言模型,解决长时序复杂任务中的规划与定位分离问题。该框架利用DROID数据集构建基准,采用显式/隐式指令双模式,结合SAM3模型实现精准空间定位。实验表明其在真实场景中提升任务成功率,尤其擅长处理多步骤和隐式指令任务,为机器人研究提供新方法。
正文
GroundedPlanBench是微软研究院提出的新框架,通过整合空间信息与视觉语言模型(VLMs)能力,解决机器人长时序任务规划难题。该框架基于DROID数据集构建测试基准,包含308个操控场景。任务描述采用显式指令(如'将勺子放在白色盘子上')和隐式指令(如'整理桌子')双重模式。V2GP系统首先检测机器人与物体的交互动作,再通过多模态语言模型生成物体描述,结合Meta SAM3模型进行空间定位,最终生成规划方案。实验数据显示,该方法在真实场景中显著提升任务成功率,尤其在处理多步骤任务和隐式指令时表现突出。研究团队由韩国大学、微软研究院和威斯康星大学联合完成,获得韩国政府IITP资助。