AsgardBench：视觉交互规划的AI代理评估基准

Microsoft Research Blog2026/03/27 03:02机翻/自动摘要/自动分类

内容评分

技术含量

8/10

营销水分

5/10

摘要

AsgardBench是基于AI2-THOR的开源基准测试工具，用于评估AI代理在视觉交互规划任务中的表现。通过模拟真实场景，测试AI系统如何利用视觉信息动态调整计划，揭示视觉感知对规划成功率的关键作用及现有模型在复杂环境中的局限性，为提升AI视觉交互能力提供研究方向。

正文

AsgardBench是专为评估AI代理在基于视觉的交互式规划任务中表现设计的基准测试工具。该工具依托AI2-THOR交互式3D模拟环境，通过模拟真实生活场景验证AI系统如何利用视觉信息动态调整行动计划。测试中代理受限于有限指令集（如查找、拾取、放置、清洁等），需根据环境视觉反馈实时修正策略。实验数据显示，视觉信息显著提升模型规划成功率，但复杂场景下仍存在物体状态识别偏差和任务进度理解不足等问题。项目已开源，为研究者提供可复现的评估框架，推动视觉感知与规划能力的技术突破。

AsgardBench：视觉交互规划的AI代理评估基准

内容评分

摘要

正文

标签