专题:kv-cache

按该标签聚合的大模型资讯列表(自动分类与标签提取)。8 篇文章。

媒体The Cloudflare Blog2026/04/16 22:004800
Prefill‑Decode 分离提升首令牌延迟与负载均衡。
提示缓存与 KV 跨 GPU 共享显著提升吞吐。

Cloudflare 为 Workers AI 平台推出了一套完整的超大规模语言模型部署方案。通过预填充‑解码分离、提示缓存、跨 GPU KV 缓存以及推测性解码等技术,实现了首令牌延迟下降 3‑5 倍、缓存命中率提升至 80% 等性能突破。自研的 Infire 推理引擎进一步支持多 GPU、降低内存占用并将冷启动时间压至 20 秒,整体吞吐提升约 20%…

媒体InfoQ 中文2026/03/25 03:595860
KV Cache用于存储注意力键值对
提升推理效率并减少内存消耗

KV Cache是LLM推理中的关键缓存机制,用于存储注意力键值对以提升生成效率。其核心作用在于减少重复计算,优化内存使用和推理速度。文章详细解析了KV Cache的原理、实现及优化策略,为开发者和研究人员提供了实用的技术参考。

媒体AINews2026/03/11 13:447960
Nemotron 3 Super参数量达1200亿
推理速度比GPT-OSS-120B快2.2倍

NVIDIA发布Nemotron 3 Super,参数量达1200亿,采用混合架构,推理速度提升2.2倍,支持代理式工作负载。该模型在AA Intelligence Index中表现优异,同时推动了代理系统的应用与优化,涵盖多个AI产品和平台。

媒体量子位2026/02/27 16:115870

DeepSeek 与北大、清华联合在 arXiv 发布 DualPath 论文,提出双路径加载框架,将 KV‑Cache 先写入解码引擎再经 RDMA 传至预填充引擎,充分利用闲置的存储网卡带宽。通过流量管理与自适应调度,实验在 660B 模型上实现离线吞吐提升 1.87 倍、在线吞吐提升 1.96 倍,并显著降低首字延迟,为智能体长上下文推理提供了高效的…