DeepSeek‑V4 预览版发布：首个 1M 超长上下文开源大模型

量子位2026/04/24 17:10机翻/自动摘要/自动分类

内容评分

技术含量

8/10

营销水分

4/10

摘要

DeepSeek 发布了开源大模型 DeepSeek‑V4 预览版，首次实现 1 百万 token 超长上下文。模型采用混合稀疏‑密集 Transformer 与分层位置编码，在单卡 40GB 显存下即可推理。官方提供 Docker 镜像和微调指南，适用于文档检索、代码补全等长文本场景，显著提升了 LongChat、BookSum 等基准表现，为开源社区带来实用的长文本处理能力。

正文

DeepSeek 团队近日推出 DeepSeek‑V4 预览版，作为其最新的开源大语言模型（），在保持 SOTA 生成质量的同时，实现了 1 百万超长上下文能力。模型基于最新的混合稀疏‑密集架构，采用分层位置编码和动态注意力窗口技术，有效控制显存消耗，实现了在单卡 40GB 显存下的 1M 上下文推理。官方提供了完整的模型权重、推理脚本以及 Docker 镜像，用户可通过一条命令快速部署：

docker run --gpus all -p 8000:8000 deepseek/v4:preview \
    --model_path /models/deepseek-v4.pt \
    --max_context 1000000

该模型在公开的 LongChat、BookSum 等长文本基准上取得了显著提升，尤其在文档检索、代码补全和长篇写作等场景表现突出。DeepSeek 还开放了针对 1M 上下文的指南，支持 LoRA、QLoRA 等轻量化适配方式，帮助开发者在特定领域快速定制模型。整体来看，DeepSeek‑V4 将长上下文能力从数千推进到百万级，为开源社区提供了可直接使用的高效长文本处理工具。

DeepSeek‑V4 预览版发布：首个 1M 超长上下文开源大模型

内容评分

摘要

正文

标签