专题：microsoft-research

按该标签聚合的大模型资讯列表（自动分类与标签提取）。共 3 篇文章。

AsgardBench：视觉交互规划的AI代理评估基准

官方Microsoft Research Blog2026/03/27 03:025860

• 基于AI2-THOR模拟环境

• 评估视觉规划能力

AsgardBench是基于AI2-THOR的开源基准测试工具，用于评估AI代理在视觉交互规划任务中的表现。通过模拟真实场景，测试AI系统如何利用视觉信息动态调整计划，揭示视觉感知对规划成功率的关键作用及现有模型在复杂环境中的局限性，为提升AI视觉交互能力提供研究方向。

开源工具开源工具 AI代理评估动态反馈机制环境适应性

PazaBench：面向低资源语言的自动语音识别基准与模型发布

原文

官方Microsoft Research Blog2026/02/05 13:077960

• PazaBench评估低资源非洲语言ASR模型

• Paza模型基于Phi-4、mms-1b-all和Whisper

微软发布PazaBench，首个针对低资源非洲语言的ASR基准，涵盖39种语言和52个模型。Paza系列模型基于Phi-4、mms-1b-all和Whisper，针对肯尼亚六种语言进行微调，提升转录质量与跨语言泛化能力。通过实地测试和社区反馈，推动AI在未充分代表语言中的应用。

模型调优以用户为中心设计自动语音识别低资源语言社区测试

Agent Lightning：微软亚洲研究院发布革命性框架，AI代理无需重写代码即可集成强化学习

原文

官方Microsoft Research Blog2025/12/12 01:005870

微软亚洲研究院上海分部发布了Agent Lightning开源框架，旨在解决AI代理集成强化学习（RL）的难题。该框架通过将代理执行与RL训练解耦，允许开发者几乎无需修改现有代码即可为LLM代理添加RL能力。它将代理行为标准化为状态-动作序列，并引入分层RL算法LightningRL，显著提升了多步任务的处理效率和准确性。Agent Lightning在文…

AI代理强化学习大型语言模型微软研究框架