谷歌发布 Gemma 系列四款本地优先大模型，支持设备级 AI 推理

InfoQ 中文2026/04/20 19:00机翻/自动摘要/自动分类

内容评分

技术含量

7/10

营销水分

4/10

摘要

谷歌在 I/O 2024 上发布 Gemma 系列四款本地优先大模型（2B、7B、7B‑Instruct、7B‑Chat），基于 Gemini 1.5‑Pro，支持 16‑bit 量化，可在移动端和边缘设备低功耗推理。同步推出开源 Gemma‑Runtime，兼容 TensorFlow Lite、ONNX Runtime 与 Edge TPU，加速 Android、iOS 与 IoT 部署。模型在指令微调和多轮对话上表现提升，凸显隐私、离线可用和成本优势，符合谷歌的可持续 AI 战略。

正文

谷歌近日在 I/O 2024 大会上正式推出 Gemma 系列四款，定位为“本地优先、设备级 AI 推理”。Gemma 包括 2B、7B、7B‑Instruct 与 7B‑Chat 四个变体，均基于最新的 Gemini 1.5‑Pro 体系结构，并在安全性、可解释性和多语言支持上进行强化。模型采用 16‑bit 量化技术，可在移动端、嵌入式芯片以及边缘服务器上实现低延迟推理，功耗比传统云端模型降低约 30%。谷歌同时发布了对应的开源推理库 Gemma‑Runtime，支持 TensorFlow Lite、ONNX Runtime 和自研的 Edge TPU 加速器，并提供了 Python 与 C++ 示例代码，帮助开发者快速在 Android、iOS 以及 IoT 设备上部署。Gemma‑Instruct 通过指令提升了对话式任务的准确性，Chat 变体在多轮对话保持上下文一致性方面表现优异。发布会还展示了在智能手机、智能音箱和工业机器人等场景的实际应用，强调了本地推理在隐私保护、离线可用性和成本控制方面的优势。谷歌表示，Gemma 将作为其“可持续 AI”战略的一部分，持续迭代并向社区开放更多模型和工具。

谷歌发布 Gemma 系列四款本地优先大模型，支持设备级 AI 推理

内容评分

摘要

正文

标签