专题:huffman-coding

按该标签聚合的大模型资讯列表(自动分类与标签提取)。1 篇文章。

媒体The Cloudflare Blog2026/04/17 21:005800
Unweight 用霍夫曼编码压缩 BF16 指数,实现 15%~22% 权重缩减
在 H100 SMEM 中即时解压,配合四种策略和自动调优

Unweight 是 Cloudflare 推出的无损压缩系统,通过对 BF16 权重指数使用霍夫曼编码,在 GPU 片上共享内存中即时解压,实现 15%~22% 的模型体积缩减。系统提供四种解压策略并配备自动调优器,可在 H100 上将内存传输量降低约 30%,以 Llama 3.1‑8B 为例节省约 3 GB VRAM,提升单卡可部署模型数量。