专题：speculative-decoding

按该标签聚合的大模型资讯列表（自动分类与标签提取）。共 3 篇文章。

Cloudflare 通过 Prefill‑Decode 分离、提示缓存与 Infire 引擎实现超大规模语言模型高效托管

媒体The Cloudflare Blog2026/04/16 22:004800

• Prefill‑Decode 分离提升首令牌延迟与负载均衡。

• 提示缓存与 KV 跨 GPU 共享显著提升吞吐。

Cloudflare 为 Workers AI 平台推出了一套完整的超大规模语言模型部署方案。通过预填充‑解码分离、提示缓存、跨 GPU KV 缓存以及推测性解码等技术，实现了首令牌延迟下降 3‑5 倍、缓存命中率提升至 80% 等性能突破。自研的 Infire 推理引擎进一步支持多 GPU、降低内存占用并将冷启动时间压至 20 秒，整体吞吐提升约 20%…

预填充‑解码分离提示缓存键值缓存推测性解码 Infire 推理引擎

P-EAGLE：通过并行推测解码加速LLM推理

原文

官方AWS Machine Learning Blog2026/03/14 03:276970

• P-EAGLE 并行生成草稿令牌提升推理速度

• 解决 EAGLE 自回归生成的性能瓶颈

P-EAGLE 是一种通过并行生成草稿令牌提升 LLM 推理速度的新方法，解决了 EAGLE 自回归生成导致的性能瓶颈。它已在 vLLM 中集成，提供预训练模型，支持多种基准测试，并在不同并发度下实现显著加速。

并行生成 Triton内核推测性解码 vLLM推理框架并行处理

Speculative Decoding：大型语言模型推理加速的交互式深度解析

原文

社区Reddit r/LocalLLaMA2026/02/20 21:474850

本文标题指出，其核心内容是对大型语言模型（LLM）推理优化技术'Speculative Decoding'提供一个精彩的互动式解释。Speculative Decoding是一种前沿的推理加速策略，旨在显著提升LLM的生成速度并降低计算成本。其基本原理是利用一个小型、快速的“草稿模型”（draft model）预先生成一批候选词元，然后由大型、高质量的“目…

推测性解码大语言模型推理优化加速