官方Microsoft Research Blog2026/03/27 00:035850
• 集成规划与空间定位
• 处理长时序复杂任务
GroundedPlanBench是微软提出的机器人任务规划框架,通过整合空间信息与视觉语言模型,解决长时序复杂任务中的规划与定位分离问题。该框架利用DROID数据集构建基准,采用显式/隐式指令双模式,结合SAM3模型实现精准空间定位。实验表明其在真实场景中提升任务成功率,尤其擅长处理多步骤和隐式指令任务,为机器人研究提供新方法。
按该标签聚合的大模型资讯列表(自动分类与标签提取)。共 3 篇文章。
GroundedPlanBench是微软提出的机器人任务规划框架,通过整合空间信息与视觉语言模型,解决长时序复杂任务中的规划与定位分离问题。该框架利用DROID数据集构建基准,采用显式/隐式指令双模式,结合SAM3模型实现精准空间定位。实验表明其在真实场景中提升任务成功率,尤其擅长处理多步骤和隐式指令任务,为机器人研究提供新方法。
DashCLIP 是 DoorDash 推出的多模态AI模型,利用3200万个餐饮场景标注数据,实现图像、文本与用户查询的语义对齐。该模型显著提升菜品图像的零样本检索准确率,已应用于App内拍照搜菜功能。其核心亮点在于构建了大规模垂直领域标注数据集,并通过对比学习优化餐饮语义空间,为行业提供可复用的多模态搜索范式。
DoorDash推出DashCLIP多模态系统,通过3200万标注数据对齐图像、文本和查询,提升语义搜索、产品排序和广告相关性。该系统基于对比学习,适用于市场平台的多种机器学习任务。