专题:gpu-memory

按该标签聚合的大模型资讯列表(自动分类与标签提取)。4 篇文章。

媒体The Cloudflare Blog2026/04/17 21:005800
Unweight 用霍夫曼编码压缩 BF16 指数,实现 15%~22% 权重缩减
在 H100 SMEM 中即时解压,配合四种策略和自动调优

Unweight 是 Cloudflare 推出的无损压缩系统,通过对 BF16 权重指数使用霍夫曼编码,在 GPU 片上共享内存中即时解压,实现 15%~22% 的模型体积缩减。系统提供四种解压策略并配备自动调优器,可在 H100 上将内存传输量降低约 30%,以 Llama 3.1‑8B 为例节省约 3 GB VRAM,提升单卡可部署模型数量。

社区Reddit r/LocalLLaMA2026/02/12 19:0290

本文探讨了LLM本地推理中,llama-server与Ollama在GPU/CPU内存管理上的差异及大模型部署挑战。用户从Ollama转向llama-server后,发现后者在模型内存分配上行为独特。具体表现为,即使模型大小(如21GB的Qwen3-Coder-30B)远超显卡显存(12GB),llama-server似乎仍优先且仅使用显存,系统内存利用率…

社区Reddit r/LocalLLaMA2026/02/09 22:1490

一位用户正在为本地隔离环境的大模型服务器寻求升级建议,预算约 5 万美元。现有配置为双路 Xeon Gold 6242、768GB DDR4 内存和三块 RTX Quadro 8000(144GB VRAM)。用户面临如何在提升模型能力(运行更大模型)与提高处理速度(TPS)之间进行权衡的难题,尤其是不确定部分内存卸载对性能的影响以及内存/CPU 升级的性…