专题：kv-cache

按该标签聚合的大模型资讯列表（自动分类与标签提取）。共 8 篇文章。

Cloudflare 通过 Prefill‑Decode 分离、提示缓存与 Infire 引擎实现超大规模语言模型高效托管

媒体The Cloudflare Blog2026/04/16 22:004800

• Prefill‑Decode 分离提升首令牌延迟与负载均衡。

• 提示缓存与 KV 跨 GPU 共享显著提升吞吐。

Cloudflare 为 Workers AI 平台推出了一套完整的超大规模语言模型部署方案。通过预填充‑解码分离、提示缓存、跨 GPU KV 缓存以及推测性解码等技术，实现了首令牌延迟下降 3‑5 倍、缓存命中率提升至 80% 等性能突破。自研的 Infire 推理引擎进一步支持多 GPU、降低内存占用并将冷启动时间压至 20 秒，整体吞吐提升约 20%…

预填充‑解码分离提示缓存键值缓存推测性解码 Infire 推理引擎

LLM架构优化：KV缓存存储效率提升至69KB/令牌

原文

社区Hacker News2026/03/29 06:424860

• KV缓存存储优化至69KB/令牌

• 降低模型推理资源消耗

本文介绍LLM推理中KV缓存的优化方法，将每个令牌的存储开销从300KB降至69KB。通过压缩、分块存储和内存管理等技术，显著提升了模型的推理效率和资源利用率，具有重要的技术参考价值。

键值缓存模型优化注意力机制记忆管理大型语言模型

谷歌TurboQuant压缩算法：KV Cache压缩6倍，精度无损

原文

媒体量子位2026/03/26 11:038980

• KV Cache压缩6倍

• 精度无损失

谷歌推出TurboQuant算法，将AI推理中的KV Cache压缩6倍，精度无损。该技术通过极坐标量化和量化JL变换实现，已在开源模型上验证效果，对内存市场带来冲击，但尚未大规模应用。

键值缓存量化技术 ICLR 2026会议 TurboQuant KV 缓存 AI效率优化

KV Cache技术：大型语言模型推理优化的核心机制

原文

媒体InfoQ 中文2026/03/25 03:595860

• KV Cache用于存储注意力键值对

• 提升推理效率并减少内存消耗

KV Cache是LLM推理中的关键缓存机制，用于存储注意力键值对以提升生成效率。其核心作用在于减少重复计算，优化内存使用和推理速度。文章详细解析了KV Cache的原理、实现及优化策略，为开发者和研究人员提供了实用的技术参考。

键值缓存注意力机制 LLM优化 Transformer架构推理性能

NVIDIA发布Nemotron 3 Super：1200亿参数模型与代理系统创新

原文

媒体AINews2026/03/11 13:447960

• Nemotron 3 Super参数量达1200亿

• 推理速度比GPT-OSS-120B快2.2倍

NVIDIA发布Nemotron 3 Super，参数量达1200亿，采用混合架构，推理速度提升2.2倍，支持代理式工作负载。该模型在AA Intelligence Index中表现优异，同时推动了代理系统的应用与优化，涵盖多个AI产品和平台。

Nemotron模型大语言模型开源项目 AI技术社区模型优化

DeepSeek 发布 DualPath：双路径推理框架利用闲置网卡提升 Agent KV‑Cache 加载效率

原文

媒体量子位2026/02/27 16:115870

DeepSeek 与北大、清华联合在 arXiv 发布 DualPath 论文，提出双路径加载框架，将 KV‑Cache 先写入解码引擎再经 RDMA 传至预填充引擎，充分利用闲置的存储网卡带宽。通过流量管理与自适应调度，实验在 660B 模型上实现离线吞吐提升 1.87 倍、在线吞吐提升 1.96 倍，并显著降低首字延迟，为智能体长上下文推理提供了高效的…

双路径框架键值缓存 RDMA 大模型推理智能体 LLM

华为MindScale：行业Agent算法架构升级，KV Cache优化达5.7倍

原文

媒体量子位2026/02/12 19:246950

华为推出MindScale算法包，优化行业Agent开发流程与推理效率，实现工作流自进化、KV Cache减少5.7倍token，提升模型性能与部署能力。

AI Agent 键值缓存提示优化检索增强生成昇腾硬件

从零开始实现大型语言模型中的KV缓存技术

原文

媒体Ahead of AI2025/06/17 18:556860

• KV缓存提升推理效率

• 代码实现与优化策略

KV缓存是LLM推理中提升效率的关键技术，通过存储键值向量减少重复计算。文章从概念和代码实现角度解析其原理，并展示了在不同模型和硬件上的性能对比。核心亮点包括代码示例、优化方法和实验结果。

大语言模型推理优化 Python 键值缓存注意力机制