专题:tensorflow-lite

按该标签聚合的大模型资讯列表(自动分类与标签提取)。2 篇文章。

媒体InfoQ 中文2026/04/20 21:004800
TurboQuant 实现混合精度量化与动态校准
模型体积与计算量分别降 3 倍、2.5 倍

Google 发布 TurboQuant,面向低算力硬件的模型压缩方案。通过混合精度量化、动态范围校准和算子融合,将大语言模型的大小和计算量分别降低约 3 倍和 2.5 倍,精度损失低于 1%。开源工具链已支持 ARM、RISC‑V 等平台,实测在 Pixel、Raspberry Pi 等设备上显著提升推理速度并降低功耗,为边缘 AI 应用提供可行路径。

媒体InfoQ 中文2026/04/20 19:004700
谷歌发布 Gemma 4 款本地优先大模型
支持 16‑bit 量化在移动端低功耗推理

谷歌在 I/O 2024 上发布 Gemma 系列四款本地优先大模型(2B、7B、7B‑Instruct、7B‑Chat),基于 Gemini 1.5‑Pro,支持 16‑bit 量化,可在移动端和边缘设备低功耗推理。同步推出开源 Gemma‑Runtime,兼容 TensorFlow Lite、ONNX Runtime 与 Edge TPU,加速 And…