Google 推出 TurboQuant:面向低算力硬件的模型压缩新方案
InfoQ 中文2026/04/20 21:00机翻/自动摘要/自动分类
0 阅读
内容评分
技术含量
8/10
营销水分
4/10
摘要
Google 发布 TurboQuant,面向低算力硬件的模型压缩方案。通过混合精度量化、动态范围校准和算子融合,将大语言模型的大小和计算量分别降低约 3 倍和 2.5 倍,精度损失低于 1%。开源工具链已支持 ARM、RISC‑V 等平台,实测在 Pixel、Raspberry Pi 等设备上显著提升推理速度并降低功耗,为边缘 AI 应用提供可行路径。
正文
Google 最近发布了 TurboQuant,这是一套针对大语言模型()在低性能硬件上高效推理的量化压缩技术。TurboQuant 通过混合精度量化、动态范围校准以及硬件感知的算子融合,实现了在保持原始模型精度损失低于 1% 的前提下,将模型大小和计算量分别降低约 3 倍和 2.5 倍。
核心实现包括:
- 混合精度量化:对不同层采用 8 位、4 位甚至 2 位整数表示,关键层保留 16 位浮点,以降低量化误差。
- 动态范围校准:在离线校准阶段收集激活分布,利用最小二乘法自动寻找最优缩放因子,避免手工调参。
- 算子融合与硬件映射:将相邻的矩阵乘、激活函数等算子在编译阶段合并,生成针对 ARM‑Neon、RISC‑V Vector 等指令集的高效机器码。
Google 提供了开源的 TurboQuant 工具链(基于 TensorFlow Lite),并在官方博客中展示了在 Pixel 手机、Raspberry Pi 4 以及 Jetson Nano 上的实测结果:相同的 LLaMA‑7B 模型在 Pixel 7 上的推理延迟从 120 ms 降至 48 ms,功耗下降约 35%。
该技术的意义在于降低部署的门槛,使得边缘设备、嵌入式系统也能运行具备一定语言理解能力的模型,为 AIoT、移动端 AI 应用打开新空间。