官方Microsoft Research Blog2026/03/27 00:035850
• 集成规划与空间定位
• 处理长时序复杂任务
GroundedPlanBench是微软提出的机器人任务规划框架,通过整合空间信息与视觉语言模型,解决长时序复杂任务中的规划与定位分离问题。该框架利用DROID数据集构建基准,采用显式/隐式指令双模式,结合SAM3模型实现精准空间定位。实验表明其在真实场景中提升任务成功率,尤其擅长处理多步骤和隐式指令任务,为机器人研究提供新方法。
按该标签聚合的大模型资讯列表(自动分类与标签提取)。共 2 篇文章。
GroundedPlanBench是微软提出的机器人任务规划框架,通过整合空间信息与视觉语言模型,解决长时序复杂任务中的规划与定位分离问题。该框架利用DROID数据集构建基准,采用显式/隐式指令双模式,结合SAM3模型实现精准空间定位。实验表明其在真实场景中提升任务成功率,尤其擅长处理多步骤和隐式指令任务,为机器人研究提供新方法。
Bedrock Robotics与AWS合作,利用视觉语言模型(VLM)自动化建筑视频数据标注,以加速自主建筑设备的开发。通过提示工程优化,VLM将工具识别准确率从34%提升至70%,且每小时处理成本仅10美元。此方案有效解决了劳动力短缺导致的数据准备瓶颈,为物理AI系统的大规模部署提供了可扩展、高效的解决方案。