首页/详情

谷歌发布 Gemma 系列四款本地优先大模型,支持设备级 AI 推理

InfoQ 中文2026/04/20 19:00机翻/自动摘要/自动分类
0 阅读

内容评分

技术含量
7/10
营销水分
4/10

摘要

谷歌在 I/O 2024 上发布 Gemma 系列四款本地优先大模型(2B、7B、7B‑Instruct、7B‑Chat),基于 Gemini 1.5‑Pro,支持 16‑bit 量化,可在移动端和边缘设备低功耗推理。同步推出开源 Gemma‑Runtime,兼容 TensorFlow Lite、ONNX Runtime 与 Edge TPU,加速 Android、iOS 与 IoT 部署。模型在指令微调和多轮对话上表现提升,凸显隐私、离线可用和成本优势,符合谷歌的可持续 AI 战略。

正文

谷歌近日在 I/O 2024 大会上正式推出 Gemma 系列四款,定位为“本地优先、设备级 AI 推理”。Gemma 包括 2B、7B、7B‑Instruct 与 7B‑Chat 四个变体,均基于最新的 Gemini 1.5‑Pro 体系结构,并在安全性、可解释性和多语言支持上进行强化。模型采用 16‑bit 量化技术,可在移动端、嵌入式芯片以及边缘服务器上实现低延迟推理,功耗比传统云端模型降低约 30%。谷歌同时发布了对应的开源推理库 Gemma‑Runtime,支持 TensorFlow Lite、ONNX Runtime 和自研的 Edge TPU 加速器,并提供了 Python 与 C++ 示例代码,帮助开发者快速在 Android、iOS 以及 IoT 设备上部署。Gemma‑Instruct 通过指令提升了对话式任务的准确性,Chat 变体在多轮对话保持上下文一致性方面表现优异。发布会还展示了在智能手机、智能音箱和工业机器人等场景的实际应用,强调了本地推理在隐私保护、离线可用性和成本控制方面的优势。谷歌表示,Gemma 将作为其“可持续 AI”战略的一部分,持续迭代并向社区开放更多模型和工具。

标签