专题：infire

Cloudflare 通过 Prefill‑Decode 分离、提示缓存与 Infire 引擎实现超大规模语言模型高效托管

媒体The Cloudflare Blog2026/04/16 22:004800

• Prefill‑Decode 分离提升首令牌延迟与负载均衡。

• 提示缓存与 KV 跨 GPU 共享显著提升吞吐。

Cloudflare 为 Workers AI 平台推出了一套完整的超大规模语言模型部署方案。通过预填充‑解码分离、提示缓存、跨 GPU KV 缓存以及推测性解码等技术，实现了首令牌延迟下降 3‑5 倍、缓存命中率提升至 80% 等性能突破。自研的 Infire 推理引擎进一步支持多 GPU、降低内存占用并将冷启动时间压至 20 秒，整体吞吐提升约 20%…

预填充‑解码分离提示缓存键值缓存推测性解码 Infire 推理引擎