大模型资讯聚合站

首页/详情

Cloudflare 通过 Prefill‑Decode 分离、提示缓存与 Infire 引擎实现超大规模语言模型高效托管

The Cloudflare Blog2026/04/16 22:00机翻/自动摘要/自动分类

0 阅读

内容评分

技术含量

8/10

营销水分

4/10

摘要

Cloudflare 为 Workers AI 平台推出了一套完整的超大规模语言模型部署方案。通过预填充‑解码分离、提示缓存、跨 GPU KV 缓存以及推测性解码等技术，实现了首令牌延迟下降 3‑5 倍、缓存命中率提升至 80% 等性能突破。自研的 Infire 推理引擎进一步支持多 GPU、降低内存占用并将冷启动时间压至 20 秒，整体吞吐提升约 20%。这些优化为高并发智能代理提供了高效、低成本的推理支撑。

正文

在 Workers AI 平台上，智能代理依赖大型语言模型（）提供推理服务。为提升超大规模模型的吞吐与延迟，Cloudflare 采用了一系列硬件与软件协同优化。

硬件配置与工作负载特性

代理场景往往需要大量输入令牌（系统提示、工具描述等），因此必须兼顾输入预填充（prefill）和输出解码（decode）的性能。

Prefill‑Decode（PD）分离

将预填充阶段与解码阶段分别部署在独立的推理服务器上，避免同一 GPU 同时承担计算与内存瓶颈。
通过 KV 缓存把预填充结果传递给解码服务器，实现跨服务器的令牌复用。
负载均衡器具备令牌感知能力，依据每个端点的预填充/解码令牌数动态分配请求，显著降低 p90 首令牌延迟（从 ~100 ms 降至 20‑30 ms）并提升延迟方差。

提示缓存（Prompt Caching）

利用 x-session-affinity 头部实现会话亲和路由，使同一会话的输入张量在 KV 缓存中复用。
在高峰期缓存命中率从 60% 提升至 80%，显著提升吞吐并降低 GPU 需求。

KV 缓存跨 GPU 共享

采用 Moonshot AI 的 Mooncake 传输引擎，实现 NVLink/NVMe‑oF 等 RDMA 协议下的零 CPU 直接内存传输。
与 LMCache、SGLang HiCache 配合，可在多节点间共享 KV 缓存，消除基于会话的路由需求。

推测性解码（Speculative Decoding）

使用轻量草稿模型（NVIDIA EAGLE‑3）生成候选令牌，目标模型在一次前向传播中挑选最合适的令牌，提升每秒令牌吞吐并保持质量。
对于结构化工具调用等高度可预测的输出尤为有效。

Infire：专有推理引擎

用 Rust 编写，针对 Cloudflare 全球分布式网络进行优化。
新增多 GPU 支持，兼容流水线并行、张量并行及专家并行，实现模型跨 8+ 张 H100 GPU 运行。
内存占用进一步降低，能够在两块 H200 GPU 上运行 Llama 4 Scout 并保留 56 GiB KV 缓存；在 8 张 H100 上运行 Kimi K2.5 仍剩余 30 GiB KV 缓存，vLLM 无法启动相同配置。
冷启动时间缩至 20 秒，受硬盘速度限制。
通过 Infire，整体每秒令牌吞吐提升约 20%，并可在低端硬件上运行最新模型。

展望

随着新模型与技术的持续涌现，Cloudflare 将继续迭代其技术栈，以提供高质量、低成本的推理服务，并积极招聘相关人才。

标签

推测性解码提示缓存 Infire 推理引擎键值缓存预填充‑解码分离