DeepSeek‑V4 发布:百万 Token 超长上下文,华为云首发高效适配
量子位2026/04/24 18:10机翻/自动摘要/自动分类
0 阅读
内容评分
技术含量
7/10
营销水分
5/10
摘要
DeepSeek‑V4 大模型于 4 月 24 日发布并开源,支持 1 M Token 超长上下文,参数压缩至 284 B,推理成本大幅降低。华为云首发适配,推出 KVCache 分层压缩、TopK/SWA/CFA 等高性能算子以及异步调度、MTP 投机等优化,实现原生 1 M 长上下文的高效推理,并已在 MaaS 平台提供免部署 API 服务,已有金山办公、360 等企业接入。
正文
4 月 24 日,DeepSeek‑V4 正式发布并开源,华为云率先完成适配并提供 API 服务。DeepSeek‑V4 支持 1 M 超长上下文,在 能力、世界知识和推理性能上均达到国内及开源领域的领先水平。模型参数规模在 Flash 版本中降至 284 B,显著降低推理成本,激活内存更小,能够以更低的费用提供百万上下文推理服务。
华为云在系统层、算子层和集群层协同优化,分别从调度效率、计算效率和数据流转效率三个维度保障模型的快速适配与高性能落地。针对 DeepSeek‑V4,华为云首发模型分层注意力压缩机制,实现 KV‑Cache 的高效分配管理,并提供 TopK、SWA、CFA 等 10+ 昇腾高性能融合算子。配合框架异步调度、MTP 多步投机等优化技术,支持原生 1 M 长上下文的高效推理。
当前,华为云 MaaS(模型即服务)平台已为开发者提供免部署、一键调用 DeepSeek‑V4‑Flash API 的 计费服务。金山办公、360 等企业已通过华为云接入该模型,DeepSeek‑V4‑Pro 版本也将在近期上线。