专题：inference-performance

按该标签聚合的大模型资讯列表（自动分类与标签提取）。共 3 篇文章。

谷歌发布Gemma 4开源大模型：多模态与智能体能力升级

媒体InfoQ 中文2026/04/18 18:007800

• 谷歌发布Gemma 4开源模型

• 支持多模态与智能体功能

谷歌推出Gemma 4开源大模型，集成多模态处理与智能体功能，通过参数效率优化实现性能提升。该模型采用改进架构，支持跨模态交互，适用于复杂应用场景，开源授权促进生态发展。

媒体InfoQ 中文2026/03/25 03:595860

• KV Cache用于存储注意力键值对

• 提升推理效率并减少内存消耗

KV Cache是LLM推理中的关键缓存机制，用于存储注意力键值对以提升生成效率。其核心作用在于减少重复计算，优化内存使用和推理速度。文章详细解析了KV Cache的原理、实现及优化策略，为开发者和研究人员提供了实用的技术参考。

社区Reddit r/LocalLLaMA2026/02/12 21:1640

本文探讨Qwen Next 80B A3B模型在NVIDIA 3090显卡上的运行实践，针对网速受限、NAS数据重建等场景，分析量化方案选择、96G内存配置与32K token/15 tok/s性能需求的适配性，为用户提供硬件部署实操指南。