专题：visual-language-model

按该标签聚合的大模型资讯列表（自动分类与标签提取）。共 2 篇文章。

GroundedPlanBench：融合空间感知的机器人任务规划框架

官方Microsoft Research Blog2026/03/27 00:035850

• 集成规划与空间定位

• 处理长时序复杂任务

GroundedPlanBench是微软提出的机器人任务规划框架，通过整合空间信息与视觉语言模型，解决长时序复杂任务中的规划与定位分离问题。该框架利用DROID数据集构建基准，采用显式/隐式指令双模式，结合SAM3模型实现精准空间定位。实验表明其在真实场景中提升任务成功率，尤其擅长处理多步骤和隐式指令任务，为机器人研究提供新方法。

多模态语言模型视频分割机器人规划基准测试视频到空间规划

视觉语言模型赋能建筑AI：自动化数据标注，加速物理AI系统部署

原文

媒体AWS Machine Learning Blog2026/02/24 07:205690

Bedrock Robotics与AWS合作，利用视觉语言模型（VLM）自动化建筑视频数据标注，以加速自主建筑设备的开发。通过提示工程优化，VLM将工具识别准确率从34%提升至70%，且每小时处理成本仅10美元。此方案有效解决了劳动力短缺导致的数据准备瓶颈，为物理AI系统的大规模部署提供了可扩展、高效的解决方案。

视觉语言模型数据标注物理AI 建筑自动化提示工程