专题：multimodal-learning

按该标签聚合的大模型资讯列表（自动分类与标签提取）。共 3 篇文章。

GroundedPlanBench：融合空间感知的机器人任务规划框架

官方Microsoft Research Blog2026/03/27 00:035850

• 集成规划与空间定位

• 处理长时序复杂任务

GroundedPlanBench是微软提出的机器人任务规划框架，通过整合空间信息与视觉语言模型，解决长时序复杂任务中的规划与定位分离问题。该框架利用DROID数据集构建基准，采用显式/隐式指令双模式，结合SAM3模型实现精准空间定位。实验表明其在真实场景中提升任务成功率，尤其擅长处理多步骤和隐式指令任务，为机器人研究提供新方法。

多模态语言模型视频分割机器人规划基准测试视频到空间规划

DoorDash发布DashCLIP：基于3200万标签的多模态语义对齐模型

原文

媒体InfoQ 中文2026/03/24 19:004840

• DoorDash发布DashCLIP模型用于餐饮图像语义搜索

• 模型训练使用3200万个人工标注的图像-文本对

DashCLIP 是 DoorDash 推出的多模态AI模型，利用3200万个餐饮场景标注数据，实现图像、文本与用户查询的语义对齐。该模型显著提升菜品图像的零样本检索准确率，已应用于App内拍照搜菜功能。其核心亮点在于构建了大规模垂直领域标注数据集，并通过对比学习优化餐饮语义空间，为行业提供可复用的多模态搜索范式。

CLIP 多模态学习语义搜索图像检索餐饮AI

DoorDash发布DashCLIP：多模态对齐提升语义搜索与广告效果

原文

媒体InfoQ2026/03/16 22:256740

• 多模态对齐提升搜索效果

• 3200万标注数据训练模型

DoorDash推出DashCLIP多模态系统，通过3200万标注数据对齐图像、文本和查询，提升语义搜索、产品排序和广告相关性。该系统基于对比学习，适用于市场平台的多种机器学习任务。

多模态学习对比学习语义搜索嵌入空间产品推荐