专题:multi-modal-reasoning

按该标签聚合的大模型资讯列表(自动分类与标签提取)。2 篇文章。

官方Microsoft Research Blog2026/03/27 00:035850
集成规划与空间定位
处理长时序复杂任务

GroundedPlanBench是微软提出的机器人任务规划框架,通过整合空间信息与视觉语言模型,解决长时序复杂任务中的规划与定位分离问题。该框架利用DROID数据集构建基准,采用显式/隐式指令双模式,结合SAM3模型实现精准空间定位。实验表明其在真实场景中提升任务成功率,尤其擅长处理多步骤和隐式指令任务,为机器人研究提供新方法。

媒体机器之心2026/02/15 19:065960

AdaReasoner提出一种创新的训练范式,使7B小模型在多模态推理任务中实现性能飞跃,甚至在特定拼图推理任务上超越GPT-5。其核心在于将“何时、何种、如何使用工具”作为一种通用推理能力进行学习,而非简单调用。通过Tool Cold Start(TC)引入错误修正与回溯机制,Tool-GRPO(TG)优化多轮工具编排,以及Adaptive Learni…