AsgardBench:视觉交互规划的AI代理评估基准原文官方Microsoft Research Blog2026/03/27 03:025860• 基于AI2-THOR模拟环境• 评估视觉规划能力AsgardBench是基于AI2-THOR的开源基准测试工具,用于评估AI代理在视觉交互规划任务中的表现。通过模拟真实场景,测试AI系统如何利用视觉信息动态调整计划,揭示视觉感知对规划成功率的关键作用及现有模型在复杂环境中的局限性,为提升AI视觉交互能力提供研究方向。开源工具开源工具AI代理评估动态反馈机制环境适应性