官方Microsoft Research Blog2026/03/27 03:025860
• 基于AI2-THOR模拟环境
• 评估视觉规划能力
AsgardBench是基于AI2-THOR的开源基准测试工具,用于评估AI代理在视觉交互规划任务中的表现。通过模拟真实场景,测试AI系统如何利用视觉信息动态调整计划,揭示视觉感知对规划成功率的关键作用及现有模型在复杂环境中的局限性,为提升AI视觉交互能力提供研究方向。
按该标签聚合的大模型资讯列表(自动分类与标签提取)。共 5 篇文章。
AsgardBench是基于AI2-THOR的开源基准测试工具,用于评估AI代理在视觉交互规划任务中的表现。通过模拟真实场景,测试AI系统如何利用视觉信息动态调整计划,揭示视觉感知对规划成功率的关键作用及现有模型在复杂环境中的局限性,为提升AI视觉交互能力提供研究方向。
微信正秘密开发一款AI智能体,集成于App内,通过自然语言指令自动调用小程序完成打车、订票、购物等生活服务,无需用户手动操作。项目采用外部大模型(如DeepSeek、通义),避开自研混元,计划Q3上线。其核心优势是微信14亿用户的封闭生态,有望实现真正的‘无感服务’,颠覆当前AI助手需主动唤醒的模式。
本文介绍了一类在用户睡眠期间自主运行的AI代理系统,通过LLM驱动的任务规划与工具调用,实现无人值守的自动化操作,如数据处理、智能调度与响应。其核心亮点在于长期任务连续性与环境交互能力,突破了传统脚本的静态限制,为个人自动化开辟了新维度,但安全与稳定性仍是落地瓶颈。
Cursor发布AI代理重大升级,提升复杂任务处理与自然语言交互能力。新版本增强推理与对话理解,为开发者和研究者提供更高效工具,推动AI代理实际应用。
本文深入探讨了AI Agent架构从去中心化向集中式演进的显著趋势,并指出这种“集中式AI心跳”如何带来非凡效能,并可能重塑传统SaaS行业。通过Clawdbot利用单一Agent管理多项个人任务、Moltbook集成OpenClaw的心跳机制、Cursor采用中心化Planner Agent驱动代码库开发,以及OpenAI Frontier提供集中式Ag…