专题：million-token-context

按该标签聚合的大模型资讯列表（自动分类与标签提取）。共 3 篇文章。

DeepSeek‑V4 详解：百万 Token 上下文、mHC 残差、混合注意力与 Muon 优化器全链路开源

媒体量子位2026/04/25 11:275800

• 1 M token 全开源

• mHC + 混合注意力

DeepSeek‑V4 以 1 M token 上下文全开源发布，核心包括 mHC 稳定残差、交替 CSA/HCA 的混合注意力、基于矩阵正交化的 Muon 优化器以及 OPD 多专家蒸馏。模型规模达 1.6 T/284 B 参数，训练数据翻倍至 33 T token，显著降低单 token FLOPs 与 KV cache。实验显示在多项基准上领先开源模…

流形约束超连接混合注意力 Muon 优化器百万 Token 超长上下文开源项目

DeepSeek V4 开源发布：千亿参数模型、百万级上下文与华为 Ascend、NVIDIA 双平台适配

原文

媒体InfoQ 中文2026/04/25 01:234800

• DeepSeek V4 开源，1300 亿参数

• 支持 1 百万 token 上下文

DeepSeek V4 于 2024 年 4 月开源，参数达 1300 亿，支持 1 百万 token 上下文，兼容华为 Ascend 与 NVIDIA GPU。模型采用 Transformer‑X 架构，经过大规模多语言预训练和指令微调，在多项基准上实现领先性能。开源仓库提供完整权重、Docker 镜像及 API 示例，并附硬件兼容性对比，便于开发者快速…

大语言模型 Transformer‑X 架构百万 Token 超长上下文硬件兼容性 DeepSeek‑V4

DeepSeek‑V4 发布：百万 Token 超长上下文，华为云首发高效适配

原文

媒体量子位2026/04/24 18:105700

• DeepSeek‑V4 开源，支持 1 M Token 超长上下文

• 华为云实现 KVCache 分层压缩和多算子加速

DeepSeek‑V4 大模型于 4 月 24 日发布并开源，支持 1 M Token 超长上下文，参数压缩至 284 B，推理成本大幅降低。华为云首发适配，推出 KVCache 分层压缩、TopK/SWA/CFA 等高性能算子以及异步调度、MTP 投机等优化，实现原生 1 M 长上下文的高效推理，并已在 MaaS 平台提供免部署 API 服务，已有金山办…

长上下文 (262K)KV‑cache (Q8)华为云适配推理加速 DeepSeek‑V4