Agent Memory：面向 AI 代理的托管记忆服务

随着开发者在 Cloudflare 上构建日益复杂的智能代理，如何在恰当时机将关键信息注入上下文成为最大难题。即便上下文窗口已突破 100 万，上下文腐败（context rot）仍难以根除——要么保留全部信息导致质量下降，要么粗暴裁剪导致关键数据丢失。

今天，Cloudflare 正式推出 Agent Memory 私人测试版，这是一项托管服务，能够从代理对话中提取、压缩并在需要时检索信息，避免占满上下文窗口。 Memory 为 AI 代理提供持久记忆，使其能够记住重要内容、忘却无关信息，并随时间变得更聪慧。

该领域发展迅速，出现了大量开源库、托管服务和研究原型。基准如 LongMemEval、LoCoMo、BEAM 能提供对比，但容易导致系统在特定评测上过拟合，实际使用时表现不佳。
现有方案在架构上差异显著：托管服务、可自托管框架、专用 API、直接文件系统/数据库访问等。实现方式从把全部信息塞入上下文、在多代理间分片，到仅返回相关片段不等。

Memory 采用 基于检索的托管服务 设计，经过对比后认为最适合大多数生产环境。相较于直接文件系统访问，它提供更严格的摄取与检索流程，提升成本效益并为复杂推理（如时间逻辑、任务替换）提供更稳固的基础。未来可能加入程序化查询功能，但仅限边缘场景。

Memory 将记忆组织在 profile（配置文件）中，可通过名称访问。主要操作包括：

单代理记忆：无论是 Claude Code、OpenCode 等编码代理，还是自托管框架（OpenClaw、Hermes）或 Anthropic 托管代理，都可无缝接入持久记忆层。
自定义代理框架：后台自治代理可利用持久记忆实现会话间状态保存，重启后继续使用。
跨代理/团队共享记忆：同一 profile 可被多名成员共享，实现编码规范、架构决策等团队知识的累积与复用，例如代码审查机器人与编码代理共享记忆，使审查反馈影响后续代码生成。

Memory 为托管服务，但所有记忆数据始终归用户所有，支持完整导出，便于迁移，降低供应商锁定风险。

代理由 框架 (harness)、模型 (model)、状态 (state) 三部分组成。框架负责循环调用模型、管理工具并维护状态；状态包括当前上下文窗口以及上下文之外的额外信息（对话历史、文件、数据库、记忆）。

在 压缩 (compaction) 阶段，框架会裁剪上下文以符合模型限制。传统代理会直接丢弃被裁剪的信息，而 Memory 会在此阶段将信息批量摄取并存入记忆库。

检索时并行运行多种检索方法（向量相似度、BM25、混合模型等），随后融合结果返回最相关的记忆片段。

初版原型仅包含基本提取、向量存储和简单检索。随后将其嵌入代理循环，形成 基准 → 分析 → 方案 → 人审 → 代理改进 → 重复 的迭代闭环。尽管将模型温度设为 0，仍存在一定随机性，导致结果波动。团队通过多轮 LoCoMo、LongMemEval、BEAM 等基准测试不断优化。

Memory 提供托管的持久记忆层，帮助 AI 代理在不膨胀上下文窗口的前提下保持信息完整性。数据可导出、可迁移，旨在通过可靠的记忆管理提升代理的长期可用性与生产效率。

内容评分