DeepSeek 发展全景：从开源 Coder 到 MoE 架构的 V2 与 R1，突破巨头垄断

在 AI 格局中，DeepSeek 常被比作《天龙八部》里的扫地僧——低调却实力惊人。该模型由杭州幻方量化的工程师团队研发，2023 年 11 月首发开源代码 DeepSeek Coder，随后推出 67B 参数模型，凭借多项基准测试成绩引起业界关注。2024 年 5 月发布的 V2 采用 Mixture‑of‑Experts（）架构，显著提升推理吞吐与算力利用率；2025 年的 R1 进一步强化开源属性，提供完整的训练、与部署工具链，意在打破 OpenAI、Anthropic、Meta 等巨头的闭源垄断。2023‑2025 年间，DeepSeek 在与 LLaMA‑2、GPT‑3.5 等主流模型的对标评测中表现出色，尤其在中文指令理解和代码生成上取得领先。与此同时，模型在商业化落地方面依托量化交易业务，实现了低成本算力部署，并在多家金融机构进行试点。2024 年 3 月一次服务器故障暴露了运维可靠性不足的问题，引发对可持续性的讨论。根据《创智记》报道，V4 预计在 2026 年 4 月下旬发布，计划引入更高效的稀疏激活技术和强化学习（GRPO）优化，以进一步压缩推理成本并提升安全性。文章指出，虽然“扫地僧”标签曾是对 DeepSeek 的最高赞誉，但过度标签化可能限制其创新空间。未来，DeepSeek 需要在技术迭代、生态建设、商业化收入与可持续运维之间找到平衡，才能在日益激烈的 AI 竞争中保持领先。

DeepSeek 发展全景：从开源 Coder 到 MoE 架构的 V2 与 R1，突破巨头垄断

内容评分

摘要

正文

标签