专题:ai-agents

按该标签聚合的大模型资讯列表(自动分类与标签提取)。69 篇文章。

媒体The Cloudflare Blog2026/04/16 21:015700
Artifacts 提供 Git 兼容的分布式版本化存储。
可通过 API 动态创建仓库、批量分支、导入现有仓库。

Artifacts 是 Cloudflare 为 AI 代理打造的 Git 兼容分布式版本化存储系统,支持通过 API 动态创建仓库、批量分支、快速克隆大仓库,并可导入现有 Git 项目。它以 Git 为底层模型,满足代理高并发代码生成和状态持久化需求,计费基于实际存储和操作次数,正进入公开测试阶段。

媒体Latent Space2026/04/15 11:056800
AI工作强度持续上升
代理层引发焦虑现象

本文分析AI技术发展导致工作强度持续上升的行业现象,通过土耳其悖论类比揭示生产力提升与工作压力的矛盾。重点报道Google Chrome Skills、Tencent HYWorld 2.0、Gemini Robotics-ER 1.6等技术进展,涵盖浏览器自动化、3D场景生成、机器人视觉增强、网络安全应用及GPU优化方案,展现AI在产品化与系统优化方面的…

媒体Where's Your Ed At2026/04/15 00:228500
LLM存在幻觉与不可靠问题
AI行业过度包装技术概念

本文深入剖析LLM技术的局限性,批判AI行业过度包装和虚假宣传。通过对比历史技术革命,指出当前LLM应用仍需人工干预,其'智能'本质被夸大。分析IBM和记者案例揭示AI工具的实际操作复杂性,质疑'AI代理'概念的误导性,强调技术应回归实用价值而非概念炒作。

媒体Import AI2026/04/13 18:026700
AI逆向工程复杂软件获验证
AI代理存在六种攻击方式

MirrorCode基准测试展现AI逆向工程能力,AI代理安全威胁分析及渐进式权力转移理论成为本期核心。研究显示AI可高效完成复杂编码任务,同时揭示AI系统独立行动能力带来的安全挑战与社会影响,为技术发展与政策制定提供参考。

媒体AWS Machine Learning Blog2026/04/09 03:485830
四种HITL实现方法
AWS服务与MCP协议结合

本文提出四种医疗AI代理的人机协同方案,结合AWS服务与MCP协议,通过代理钩子、工具嵌入、异步审批和提示机制,确保关键决策合规性与患者安全。包含架构设计与代码示例,适用于药物研发、临床数据管理等场景,实现从试点到全企业部署的灵活应用。

媒体LangChain Blog2026/03/27 03:394850
基于LangGraph构建多智能体框架
统一金融数据检索接口

Kensho利用LangGraph构建多智能体框架,解决金融数据检索的可信性与效率问题。通过统一接口整合结构化数据与生成式AI,实现查询路由、子查询拆分及响应聚合。核心亮点包括自定义数据协议、分离数据路由与检索层、以及基于LangGraph的可观测性与评估机制,提升金融AI应用的可靠性与开发效率。

媒体LangChain Blog2026/03/24 05:375750
LangChain 5006 号展位现场演示最新 LangSmith 功能
分组讨论聚焦次秒冷启动、gVisor 隔离的高性能安全代理

LangChain 将在 Google Cloud Next 2026(拉斯维加斯)展示最新的 LangSmith 可观测、部署与 Fleet 功能,并通过分组讨论和圆桌会谈分享高性能安全代理运行时技术、开放标准与开发者体验提升方案。现场提供展位演示、社交活动以及一键在 GCP Marketplace 购买的部署渠道,为开发者提供从调试到生产的全链路支持。

媒体ByteByteGo Newsletter2026/03/23 23:315860
引入智能代理优化查询流程
支持多源信息整合与评估

Agentic RAG 是一种引入智能代理的检索增强生成技术,通过自主决策、查询优化和结果评估提升系统性能与准确性。其核心亮点在于多源信息处理、动态查询调整和自我修正能力,适用于复杂任务场景,但需权衡成本与效率。

官方Vercel Blog2026/03/20 05:015860
Chat SDK 让开发者将AI代理嵌入聊天界面
支持多代理协同与工具调用自动路由

Chat SDK 是一个用于在应用中直接集成AI代理的开发者工具,允许用户通过聊天界面与具备记忆、规划和工具调用能力的智能体交互。它通过标准化API降低开发门槛,支持多代理协同与上下文管理,兼容主流大模型,助力产品快速实现‘会思考的聊天机器人’。核心亮点是零重构接入与实时决策追踪。

官方The GitHub Blog2026/03/20 00:095980
Squad在代码库中启动AI代理团队
决策和上下文以文本文件存储在代码中

Squad是一个开源AI协作工具,允许开发者在代码库中一键初始化多代理AI团队(前端/后端/测试),通过将决策与上下文写入代码库实现去中心化协调。其Drop-box模式、显式记忆和上下文复制设计,让AI代理能继承项目历史,自动分工、独立审查,大幅降低多代理开发的基础设施门槛。

媒体AWS Machine Learning Blog2026/03/18 23:544840
Strands Evals 用于评估AI代理的非确定性输出
基于LLM的评估器替代传统断言测试

Strands Evals 是一个专为AI代理设计的系统化评估框架,通过案例、实验与LLM驱动的评估工具,解决传统测试无法处理的非确定性问题。它支持轨迹分析、多轮对话评估与在线/离线两种模式,帮助开发者量化代理的准确性、辅助性与行为合理性,适用于开发、测试与生产环境的质量保障。

官方Vercel Blog2026/03/18 21:005650
Vercel公布2026年AI加速器入选团队
团队聚焦NLP、CV、ML与AI基础设施

Vercel AI加速器2026公布入选团队,聚焦NLP、CV、ML与AI基础设施领域,为初创企业提供技术资源与云平台支持,推动AI应用基于Serverless架构快速部署。核心亮点在于强化前端与LLM的无缝集成,加速AI代理与RAG系统落地,是Vercel构建AI原生开发生态的重要布局。

官方Microsoft Azure Blog2026/03/18 20:456760
Fabric平台发布数据库整合新功能
引入Fabric IQ优化数据管理

微软FabCon与SQLCon 2026大会聚焦Fabric平台的数据库整合能力,展示统一数据管理、AI代理增强、Fabric IQ智能分析等核心技术。通过OneLake架构和语义模型构建,帮助企业实现跨系统数据协作与AI应用加速开发,提升数据治理效率。

媒体David Heinemeier Hansson2026/03/17 02:037840
ONCE 是集成多个应用的自托管服务器平台
提供监控、升级和备份功能

ONCE 是一个新的自托管应用服务器平台,整合了多个开源项目,简化了部署和运维流程。它支持监控、升级和备份,旨在为用户和 AI 代理提供完整的基础设施解决方案。

媒体ByteByteGo Newsletter2026/03/16 23:316950
Stripe 使用 Claude 代理自动化生成 PR
代理在隔离环境中运行并结合确定性步骤

Stripe 的“仆人”AI 代理系统基于 Claude,实现无人监管的代码自动化,每周合并超1300个PR。系统通过隔离环境、蓝图编排、精准上下文和快速反馈机制,提升代码生成效率与可靠性,同时保留人工审查环节。

媒体InfoQ2026/03/16 19:004870
AI代理评估需结合基准测试、自动化流程与人工审核
多步骤任务需测试工具调用与状态保持能力

本文提出评估AI代理的三位一体方法:结合基准测试、自动化流程与人工审核,解决多步骤任务、工具调用和长对话中的可靠性难题。核心亮点在于引入工程化评估指标(如工具滥用率)并警示LLM自评估的偏差风险,为开发者构建可信赖的AI代理系统提供可落地的评估框架。