专题:task-planning

按该标签聚合的大模型资讯列表(自动分类与标签提取)。5 篇文章。

官方Microsoft Research Blog2026/03/27 03:025860
基于AI2-THOR模拟环境
评估视觉规划能力

AsgardBench是基于AI2-THOR的开源基准测试工具,用于评估AI代理在视觉交互规划任务中的表现。通过模拟真实场景,测试AI系统如何利用视觉信息动态调整计划,揭示视觉感知对规划成功率的关键作用及现有模型在复杂环境中的局限性,为提升AI视觉交互能力提供研究方向。

官方Microsoft Research Blog2026/03/27 00:035850
集成规划与空间定位
处理长时序复杂任务

GroundedPlanBench是微软提出的机器人任务规划框架,通过整合空间信息与视觉语言模型,解决长时序复杂任务中的规划与定位分离问题。该框架利用DROID数据集构建基准,采用显式/隐式指令双模式,结合SAM3模型实现精准空间定位。实验表明其在真实场景中提升任务成功率,尤其擅长处理多步骤和隐式指令任务,为机器人研究提供新方法。

官方Microsoft Research Blog2026/02/27 01:064850
CORPGEN 引入层次规划与内存隔离的数字员工
在多任务环境中完成率提升约 3.5 倍

CORPGEN 是一种面向企业多任务场景的数字员工框架,利用层次规划、内存隔离和经验学习提升 AI 代理的任务完成率。实验在多任务环境(MHTE)中显示,传统代理完成率降至 8.7%,而 CORPGEN 提升至约 3.5 倍。其模块化设计可随底层模型升级而继续获益,未来将关注跨日持续表现和协作优化。

社区Hacker News2026/02/22 08:295680

本文介绍了利用 Claude Code 将任务规划与执行解耦的实现方法。通过提示工程让模型生成结构化的执行计划,随后持久化并交由执行模块逐步完成。文章详细阐述了提示模板、计划校验、错误回滚等关键技术,并提供了完整的 Python 示例代码,帮助读者快速构建可观测、可复用的任务流水线。