专题：tensorflow-lite

按该标签聚合的大模型资讯列表（自动分类与标签提取）。共 2 篇文章。

Google 推出 TurboQuant：面向低算力硬件的模型压缩新方案

媒体InfoQ 中文2026/04/20 21:004800

• TurboQuant 实现混合精度量化与动态校准

• 模型体积与计算量分别降 3 倍、2.5 倍

Google 发布 TurboQuant，面向低算力硬件的模型压缩方案。通过混合精度量化、动态范围校准和算子融合，将大语言模型的大小和计算量分别降低约 3 倍和 2.5 倍，精度损失低于 1%。开源工具链已支持 ARM、RISC‑V 等平台，实测在 Pixel、Raspberry Pi 等设备上显著提升推理速度并降低功耗，为边缘 AI 应用提供可行路径。

量化压缩边缘 AI TensorFlow Lite 硬件加速大语言模型优化

谷歌发布 Gemma 系列四款本地优先大模型，支持设备级 AI 推理

原文

媒体InfoQ 中文2026/04/20 19:004700

• 谷歌发布 Gemma 4 款本地优先大模型

• 支持 16‑bit 量化在移动端低功耗推理

谷歌在 I/O 2024 上发布 Gemma 系列四款本地优先大模型（2B、7B、7B‑Instruct、7B‑Chat），基于 Gemini 1.5‑Pro，支持 16‑bit 量化，可在移动端和边缘设备低功耗推理。同步推出开源 Gemma‑Runtime，兼容 TensorFlow Lite、ONNX Runtime 与 Edge TPU，加速 And…

Gemma 大模型边缘 AI 量化压缩 TensorFlow Lite 指令微调