专题：moe

按该标签聚合的大模型资讯列表（自动分类与标签提取）。共 15 篇文章。

DeepSeek 发展全景：从开源 Coder 到 MoE 架构的 V2 与 R1，突破巨头垄断

媒体爱范儿2026/04/12 16:535800

• DeepSeek 通过 MoE 与开源策略挑战大模型垄断

• V2、R1 版本提升推理效率并提供完整工具链

DeepSeek 由幻方量化研发，凭借开源 Coder、67B 大模型以及采用 MoE 的 V2、强化开源的 R1，已在多项基准中与 LLaMA‑2、GPT‑3.5 等竞争。文章回顾其技术路线、商业落地与运维挑战，并展望即将发布的 V4 将引入更高效稀疏激活和强化学习优化，强调在竞争激烈的 AI 时代保持技术与生态平衡的重要性。

大模型 Mixture-of-Experts 开源项目量化交易推理效率

Google DeepMind 发布 Gemma 4 系列：开源多模态模型，支持 256K 令牌长上下文

原文

媒体AINews2026/04/02 13:445840

• Gemma 4 系列开源，Apache 2.0 许可

• 支持 256K 令牌长上下文和多模态输入

Google DeepMind 开源了 Gemma 4 系列多模态模型，提供 256K 令牌长上下文、文本/视觉/音频统一处理，并推出 31B 密集、26B MoE 以及面向边缘的 4B/2B 版本。Gemma‑31B 在开源榜单位列第三，GPQA Diamond 取得 85.7% 成绩。发布即获 llama.cpp、Ollama、vLLM 等框架支持，且…

Gemma 模型多模态模型开放权重模型模型优化推理能力

NVIDIA Nemotron 3 Super 在 Amazon Bedrock 上正式发布

原文

媒体AWS Machine Learning Blog2026/03/20 01:257840

• NVIDIA Nemotron 3 Super 在 Amazon Bedrock 上推出

• 支持多语言和长上下文推理

NVIDIA Nemotron 3 Super 在 Amazon Bedrock 上发布，采用 MoE 架构，支持多语言和长上下文。其在多个基准测试中表现优异，具备高吞吐效率和准确性。开发者可通过 AWS CLI 和 SDK 调用模型，并利用其进行复杂任务如分布式限速服务设计。

NVIDIA Amazon Bedrock Mixture-of-Experts Transformer 大语言模型

苹果LLM in a Flash技术助力本地运行Qwen 397B模型

原文

官方Simon Willison2026/03/19 07:566860

• 苹果技术实现本地运行大模型

• 量化优化降低内存占用

Dan Woods利用苹果LLM in a Flash技术，在本地运行Qwen 397B模型，通过量化和专家混合架构优化内存使用。实验显示，4位量化可实现每秒4.36个令牌的推理速度，且输出质量与4位精度无明显差异。该成果对本地大模型部署具有重要参考价值。

LLM in a Flash Mixture-of-Experts 量化技术 MLX技术内存优化

YuanLab开源万亿参数多模态大模型Yuan3.0 Ultra

原文

媒体量子位2026/03/05 21:046930

YuanLab开源万亿参数多模态大模型Yuan3.0 Ultra，采用MoE架构与LAEP算法提升效率，支持文档理解、RAG、表格分析等企业任务，为OpenClaw等智能体提供核心能力。

OpenClaw Mixture-of-Experts 检索增强生成层适应专家剪枝多模态

YuanLab开源万亿参数多模态大模型Yuan3.0 Ultra，强化企业级AI应用

原文

媒体量子位2026/03/05 19:196960

YuanLab开源万亿参数多模态大模型Yuan3.0 Ultra，采用MoE架构与LAEP算法优化效率，支持企业级文档理解、RAG、数据分析等任务，推动Agent落地。

Mixture-of-Experts 检索增强生成层适应专家剪枝多模态企业应用

DeepSeek V4架构揭秘：清华北大联合发布LLM性能飞跃新论文

原文

媒体InfoQ 中文2026/02/28 02:005860

DeepSeek AI与清华、北大联合发布新论文，揭示了DeepSeek V4大型语言模型架构的重大改进。该架构融合了混合专家模型（MoE）和高效注意力机制，显著提升了模型在语言理解、代码生成等任务上的性能和推理速度，同时降低了计算成本。这一进展标志着LLM技术向更高效、更强大的方向迈进，为AI应用开辟新机遇。

大语言模型 DeepSeek Transformer Mixture-of-Experts AI研究

vLLM助力高效服务多个微调模型：Multi-LoRA技术详解

原文

官方AWS Machine Learning Blog2026/02/26 04:566870

本文提出Multi-LoRA技术，通过在模型层插入适配器实现多模型共享GPU资源，显著提升效率。适用于MoE模型如GPT-OSS、Qwen3-MoE等，已在vLLM 0.15.0中实现，并在Amazon SageMaker AI和Bedrock上部署。性能提升包括OTPS提高19%和TTFT缩短8%。

vLLM推理框架多LoRA Mixture-of-Experts Amazon SageMaker Amazon Bedrock

探索将 GPT‑5.3 核心能力蒸馏至 MoE 架构的 GPT‑OSS 实践

原文

社区Reddit r/LocalLLaMA2026/02/22 20:004480

作者探讨将 GPT‑5.3 的核心编码能力通过知识蒸馏迁移到基于 MoE 的开源模型 GPT‑OSS，以期在 Strix Halo 上实现更快、更轻量的推理。文章提出技术路线并提醒可能的政策风险，呼吁社区分享已有的 MoE 蒸馏实现。

知识蒸馏 Mixture-of-Experts GPT-OSS模型模型压缩

阿里云通义千问Qwen3.5-397B模型实现“发布即多芯”，FlagOS赋能跨芯片适配与零改码部署

原文

媒体机器之心2026/02/20 21:126840

阿里云发布了参数量达3970亿的旗舰级多模态大模型Qwen3.5-397B-A17B。众智FlagOS社区迅速完成了该模型在沐曦、平头哥真武、英伟达等多种AI芯片上的适配与部署，并推出了vLLM多芯片插件，实现“发布即多芯”和“零改码”部署。FlagOS通过统一系统软件栈、高性能算子库、AI编译器和迁移工具，极大降低了大模型跨芯片落地的门槛，并鼓励开发者参…

通义千问大语言模型多模态大语言模型 Mixture-of-Experts 跨芯片适配

NVIDIA Nemotron 3 Nano 30B 登陆 SageMaker JumpStart：开源MoE大模型，30亿参数高效推理新标杆

原文

媒体AWS Machine Learning Blog2026/02/12 03:3850

NVIDIA Nemotron 3 Nano 30B 是一款开源的30亿活跃参数混合专家（MoE）语言模型，现已在 Amazon SageMaker JumpStart 上线，支持一键部署。该模型采用 Transformer-Mamba 架构，在编码、数学与科学推理等任务中表现优异，上下文窗口达百万令牌，兼具高精度与高效率。其完全开放的权重与部署方案，便于…

Mixture-of-Experts Nemotron模型 Amazon SageMaker 开放权重模型长上下文（256K token）

2026年2月AI技术动态：模型创新与社区讨论

原文

媒体Latent Space2026/02/10 12:335750

2026年2月初AI技术动态涵盖模型创新、社区讨论及技术评测。OpenAI通过广告推广AI产品化能力，Opus 4.6和Claude Opus 4.6引发关注，RLM和MoE技术被探讨其效率与扩展性。模型评测为性能提供参考，Discord等平台成为技术交流的重要渠道。

OpenAI 递归语言模型 Mixture-of-Experts 模型基准测试 AI社区

美团发布轻量化MoE模型LongCat-Flash-Lite：参数量685亿，推理仅激活29-45亿参数

原文

官方美团技术团队2026/02/10 08:007850

美团发布685亿参数的轻量化MoE模型LongCat-Flash-Lite，推理仅激活29-45亿参数。该模型在智能体和代码处理任务中表现优异，通过嵌入扩展实现高效进化，是AI模型优化的重要进展。

Mixture-of-Experts N-gram模型模型轻量化嵌入层扩展代码处理

上下文图谱：AI编码代理的新方向与多模态模型进展

原文

媒体AINews2026/02/03 13:446850

本文介绍了多款AI模型的最新进展，包括GLM-OCR、Qwen3-Coder-Next和SERA-14B，以及上下文图谱这一新兴概念。这些模型在多模态识别、编码任务和长上下文处理方面表现出色，为AI代理的可追溯性和性能提升提供了新方向。

光学字符识别 Mixture-of-Experts 上下文图谱编码代理 AI模型

Meta 发布 Llama 4 系列多模态模型，MoE 架构引领新突破

原文

媒体Gino Notes2025/04/06 08:007850

Meta 发布 Llama 4 系列多模态模型，包括 Scout、Maverick 和 Behemoth。采用 MoE 架构，显著提升性能、效率和上下文长度，Scout 支持 1000 万 token 上下文处理，Maverick 专注多模态理解与生成，Behemoth 作为教师模型。此次发布代表多模态 AI 技术的重要进展。

Llama 4 Mixture-of-Experts 多模态生成开源项目上下文长度