官方Microsoft Research Blog2026/03/27 03:025860
• 基于AI2-THOR模拟环境
• 评估视觉规划能力
AsgardBench是基于AI2-THOR的开源基准测试工具,用于评估AI代理在视觉交互规划任务中的表现。通过模拟真实场景,测试AI系统如何利用视觉信息动态调整计划,揭示视觉感知对规划成功率的关键作用及现有模型在复杂环境中的局限性,为提升AI视觉交互能力提供研究方向。
按该标签聚合的大模型资讯列表(自动分类与标签提取)。共 3 篇文章。
AsgardBench是基于AI2-THOR的开源基准测试工具,用于评估AI代理在视觉交互规划任务中的表现。通过模拟真实场景,测试AI系统如何利用视觉信息动态调整计划,揭示视觉感知对规划成功率的关键作用及现有模型在复杂环境中的局限性,为提升AI视觉交互能力提供研究方向。
微软发布PazaBench,首个针对低资源非洲语言的ASR基准,涵盖39种语言和52个模型。Paza系列模型基于Phi-4、mms-1b-all和Whisper,针对肯尼亚六种语言进行微调,提升转录质量与跨语言泛化能力。通过实地测试和社区反馈,推动AI在未充分代表语言中的应用。
微软亚洲研究院上海分部发布了Agent Lightning开源框架,旨在解决AI代理集成强化学习(RL)的难题。该框架通过将代理执行与RL训练解耦,允许开发者几乎无需修改现有代码即可为LLM代理添加RL能力。它将代理行为标准化为状态-动作序列,并引入分层RL算法LightningRL,显著提升了多步任务的处理效率和准确性。Agent Lightning在文…