媒体InfoQ 中文2026/04/20 21:004800
• TurboQuant 实现混合精度量化与动态校准
• 模型体积与计算量分别降 3 倍、2.5 倍
Google 发布 TurboQuant,面向低算力硬件的模型压缩方案。通过混合精度量化、动态范围校准和算子融合,将大语言模型的大小和计算量分别降低约 3 倍和 2.5 倍,精度损失低于 1%。开源工具链已支持 ARM、RISC‑V 等平台,实测在 Pixel、Raspberry Pi 等设备上显著提升推理速度并降低功耗,为边缘 AI 应用提供可行路径。