专题：gpu-memory

按该标签聚合的大模型资讯列表（自动分类与标签提取）。共 4 篇文章。

Unweight：在不牺牲质量的前提下实现 LLM 权重 22% 的无损压缩

媒体The Cloudflare Blog2026/04/17 21:005800

• Unweight 用霍夫曼编码压缩 BF16 指数，实现 15%~22% 权重缩减

• 在 H100 SMEM 中即时解压，配合四种策略和自动调优

Unweight 是 Cloudflare 推出的无损压缩系统，通过对 BF16 权重指数使用霍夫曼编码，在 GPU 片上共享内存中即时解压，实现 15%~22% 的模型体积缩减。系统提供四种解压策略并配备自动调优器，可在 H100 上将内存传输量降低约 30%，以 Llama 3.1‑8B 为例节省约 3 GB VRAM，提升单卡可部署模型数量。

无损压缩霍夫曼编码 GPU 内存大模型推理 Rust 推理引擎

NVIDIA GreenBoost：透明扩展GPU显存的新技术方案

原文

媒体Lobsters AI2026/03/19 07:036850

• GPU显存透明扩展技术

• 利用系统内存和NVMe SSD

NVIDIA GreenBoost技术通过系统内存和NVMe透明扩展GPU显存，提升AI计算效率。适用于显存不足的训练和推理场景，依赖CUDA和驱动程序实现，具备良好的资源调度能力。

GPU 记忆管理 NVIDIA GPU 内存 CUDA

LLM本地推理深度解析：llama-server与Ollama的GPU/CPU内存管理与大模型卸载策略

原文

社区Reddit r/LocalLLaMA2026/02/12 19:0290

本文探讨了LLM本地推理中，llama-server与Ollama在GPU/CPU内存管理上的差异及大模型部署挑战。用户从Ollama转向llama-server后，发现后者在模型内存分配上行为独特。具体表现为，即使模型大小（如21GB的Qwen3-Coder-30B）远超显卡显存（12GB），llama-server似乎仍优先且仅使用显存，系统内存利用率…

大模型推理 GPU 内存 CPU内存模型卸载 Ollama框架

升级本地大模型服务器：如何平衡能力与速度？

原文

社区Reddit r/LocalLLaMA2026/02/09 22:1490

一位用户正在为本地隔离环境的大模型服务器寻求升级建议，预算约 5 万美元。现有配置为双路 Xeon Gold 6242、768GB DDR4 内存和三块 RTX Quadro 8000（144GB VRAM）。用户面临如何在提升模型能力（运行更大模型）与提高处理速度（TPS）之间进行权衡的难题，尤其是不确定部分内存卸载对性能的影响以及内存/CPU 升级的性…

本地大语言模型硬件升级性能优化 GPU 内存内存卸载