专题:million-token-context

按该标签聚合的大模型资讯列表(自动分类与标签提取)。3 篇文章。

媒体量子位2026/04/25 11:275800
1 M token 全开源
mHC + 混合注意力

DeepSeek‑V4 以 1 M token 上下文全开源发布,核心包括 mHC 稳定残差、交替 CSA/HCA 的混合注意力、基于矩阵正交化的 Muon 优化器以及 OPD 多专家蒸馏。模型规模达 1.6 T/284 B 参数,训练数据翻倍至 33 T token,显著降低单 token FLOPs 与 KV cache。实验显示在多项基准上领先开源模…

媒体InfoQ 中文2026/04/25 01:234800
DeepSeek V4 开源,1300 亿参数
支持 1 百万 token 上下文

DeepSeek V4 于 2024 年 4 月开源,参数达 1300 亿,支持 1 百万 token 上下文,兼容华为 Ascend 与 NVIDIA GPU。模型采用 Transformer‑X 架构,经过大规模多语言预训练和指令微调,在多项基准上实现领先性能。开源仓库提供完整权重、Docker 镜像及 API 示例,并附硬件兼容性对比,便于开发者快速…

媒体量子位2026/04/24 18:105700
DeepSeek‑V4 开源,支持 1 M Token 超长上下文
华为云实现 KVCache 分层压缩和多算子加速

DeepSeek‑V4 大模型于 4 月 24 日发布并开源,支持 1 M Token 超长上下文,参数压缩至 284 B,推理成本大幅降低。华为云首发适配,推出 KVCache 分层压缩、TopK/SWA/CFA 等高性能算子以及异步调度、MTP 投机等优化,实现原生 1 M 长上下文的高效推理,并已在 MaaS 平台提供免部署 API 服务,已有金山办…