专题：task-automation

按该标签聚合的大模型资讯列表（自动分类与标签提取）。共 5 篇文章。

AsgardBench：视觉交互规划的AI代理评估基准

官方Microsoft Research Blog2026/03/27 03:025860

• 基于AI2-THOR模拟环境

• 评估视觉规划能力

AsgardBench是基于AI2-THOR的开源基准测试工具，用于评估AI代理在视觉交互规划任务中的表现。通过模拟真实场景，测试AI系统如何利用视觉信息动态调整计划，揭示视觉感知对规划成功率的关键作用及现有模型在复杂环境中的局限性，为提升AI视觉交互能力提供研究方向。

开源工具开源工具 AI代理评估动态反馈机制环境适应性

微信秘密打造AI生活管家：整合小程序生态，跳过App直接执行任务

原文

媒体爱范儿2026/03/11 11:407660

• 微信研发绝密AI智能体，集成于App内

• 通过自然语言自动调用小程序完成任务

微信正秘密开发一款AI智能体，集成于App内，通过自然语言指令自动调用小程序完成打车、订票、购物等生活服务，无需用户手动操作。项目采用外部大模型（如DeepSeek、通义），避开自研混元，计划Q3上线。其核心优势是微信14亿用户的封闭生态，有望实现真正的‘无感服务’，颠覆当前AI助手需主动唤醒的模式。

AI智能体微信生态 AI集成小程序 AI模型对比

睡眠期间自动运行的AI代理：无人值守任务自动化的新范式

原文

社区Hacker News2026/03/11 03:094690

• AI代理可在用户离线时持续运行任务

• 基于LLM实现任务规划与工具调用

本文介绍了一类在用户睡眠期间自主运行的AI代理系统，通过LLM驱动的任务规划与工具调用，实现无人值守的自动化操作，如数据处理、智能调度与响应。其核心亮点在于长期任务连续性与环境交互能力，突破了传统脚本的静态限制，为个人自动化开辟了新维度，但安全与稳定性仍是落地瓶颈。

AI代理大型语言模型任务自动化长期记忆存储工具调用

Cursor发布AI代理重大升级，强化复杂任务处理能力

原文

媒体Matt Wolfe2026/02/28 05:187680

Cursor发布AI代理重大升级，提升复杂任务处理与自然语言交互能力。新版本增强推理与对话理解，为开发者和研究者提供更高效工具，推动AI代理实际应用。

AI代理自然语言处理任务自动化 Cursor AI更新

AI Agent架构新范式：集中式“心跳”如何重塑SaaS与效率边界

原文

媒体Latent Space2026/02/07 12:115740

本文深入探讨了AI Agent架构从去中心化向集中式演进的显著趋势，并指出这种“集中式AI心跳”如何带来非凡效能，并可能重塑传统SaaS行业。通过Clawdbot利用单一Agent管理多项个人任务、Moltbook集成OpenClaw的心跳机制、Cursor采用中心化Planner Agent驱动代码库开发，以及OpenAI Frontier提供集中式Ag…

AI代理集中式架构 SaaS产品任务自动化 OpenClaw