首页/详情

DeepSeek‑V4 预览版发布:首个 1M 超长上下文开源大模型

量子位2026/04/24 17:10机翻/自动摘要/自动分类
0 阅读

内容评分

技术含量
8/10
营销水分
4/10

摘要

DeepSeek 发布了开源大模型 DeepSeek‑V4 预览版,首次实现 1 百万 token 超长上下文。模型采用混合稀疏‑密集 Transformer 与分层位置编码,在单卡 40GB 显存下即可推理。官方提供 Docker 镜像和微调指南,适用于文档检索、代码补全等长文本场景,显著提升了 LongChat、BookSum 等基准表现,为开源社区带来实用的长文本处理能力。

正文

DeepSeek 团队近日推出 DeepSeek‑V4 预览版,作为其最新的开源大语言模型(),在保持 SOTA 生成质量的同时,实现了 1 百万 超长上下文能力。模型基于最新的混合稀疏‑密集 架构,采用分层位置编码和动态注意力窗口技术,有效控制显存消耗,实现了在单卡 40GB 显存下的 1M 上下文推理。官方提供了完整的模型权重、推理脚本以及 Docker 镜像,用户可通过一条命令快速部署:

docker run --gpus all -p 8000:8000 deepseek/v4:preview \
    --model_path /models/deepseek-v4.pt \
    --max_context 1000000

该模型在公开的 LongChat、BookSum 等长文本基准上取得了显著提升,尤其在文档检索、代码补全和长篇写作等场景表现突出。DeepSeek 还开放了针对 1M 上下文的指南,支持 LoRA、QLoRA 等轻量化适配方式,帮助开发者在特定领域快速定制模型。整体来看,DeepSeek‑V4 将长上下文能力从数千 推进到百万级,为开源社区提供了可直接使用的高效长文本处理工具。

标签