Cloudflare 通过 Prefill‑Decode 分离、提示缓存与 Infire 引擎实现超大规模语言模型高效托管
The Cloudflare Blog2026/04/16 22:00机翻/自动摘要/自动分类
0 阅读
内容评分
技术含量
8/10
营销水分
4/10
摘要
Cloudflare 为 Workers AI 平台推出了一套完整的超大规模语言模型部署方案。通过预填充‑解码分离、提示缓存、跨 GPU KV 缓存以及推测性解码等技术,实现了首令牌延迟下降 3‑5 倍、缓存命中率提升至 80% 等性能突破。自研的 Infire 推理引擎进一步支持多 GPU、降低内存占用并将冷启动时间压至 20 秒,整体吞吐提升约 20%。这些优化为高并发智能代理提供了高效、低成本的推理支撑。
正文
在 Workers AI 平台上,智能代理依赖大型语言模型()提供推理服务。为提升超大规模模型的吞吐与延迟,Cloudflare 采用了一系列硬件与软件协同优化。
硬件配置与工作负载特性
- 代理场景往往需要大量输入令牌(系统提示、工具描述等),因此必须兼顾输入预填充(prefill)和输出解码(decode)的性能。
Prefill‑Decode(PD)分离
- 将预填充阶段与解码阶段分别部署在独立的推理服务器上,避免同一 GPU 同时承担计算与内存瓶颈。
- 通过 KV 缓存把预填充结果传递给解码服务器,实现跨服务器的令牌复用。
- 负载均衡器具备令牌感知能力,依据每个端点的预填充/解码令牌数动态分配请求,显著降低 p90 首令牌延迟(从 ~100 ms 降至 20‑30 ms)并提升延迟方差。
提示缓存(Prompt Caching)
- 利用
x-session-affinity头部实现会话亲和路由,使同一会话的输入张量在 KV 缓存中复用。 - 在高峰期缓存命中率从 60% 提升至 80%,显著提升吞吐并降低 GPU 需求。
KV 缓存跨 GPU 共享
- 采用 Moonshot AI 的 Mooncake 传输引擎,实现 NVLink/NVMe‑oF 等 RDMA 协议下的零 CPU 直接内存传输。
- 与 LMCache、SGLang HiCache 配合,可在多节点间共享 KV 缓存,消除基于会话的路由需求。
推测性解码(Speculative Decoding)
- 使用轻量草稿模型(NVIDIA EAGLE‑3)生成候选令牌,目标模型在一次前向传播中挑选最合适的令牌,提升每秒令牌吞吐并保持质量。
- 对于结构化工具调用等高度可预测的输出尤为有效。
Infire:专有推理引擎
- 用 Rust 编写,针对 Cloudflare 全球分布式网络进行优化。
- 新增多 GPU 支持,兼容流水线并行、张量并行及专家并行,实现模型跨 8+ 张 H100 GPU 运行。
- 内存占用进一步降低,能够在两块 H200 GPU 上运行 Llama 4 Scout 并保留 56 GiB KV 缓存;在 8 张 H100 上运行 Kimi K2.5 仍剩余 30 GiB KV 缓存,vLLM 无法启动相同配置。
- 冷启动时间缩至 20 秒,受硬盘速度限制。
- 通过 Infire,整体每秒令牌吞吐提升约 20%,并可在低端硬件上运行最新模型。
展望
- 随着新模型与技术的持续涌现,Cloudflare 将继续迭代其技术栈,以提供高质量、低成本的 推理服务,并积极招聘相关人才。