DeepSeek‑V4 在项目启动第 0 天通过 SGLang 框架和 Miles 库实现了显著的推理加速,并完成了强化学习算法的端到端验证。两者协同将推理时延降低约 30%,吞吐量提升 1.8 倍,同时在基准 RL 任务上提升收敛速度约 20%,确保模型的稳定性,为后续规模化训练和复杂场景应用奠定基础。
专题:deepseek-v4
按该标签聚合的大模型资讯列表(自动分类与标签提取)。共 8 篇文章。
DeepSeek V4 在华为昇腾平台开源,性能接近顶级闭源模型,提供完整代码和权重,降低大模型落地门槛。小米高管称中美顶尖模型差距仅两三个月,显示国内研发速度加快。阿联酋计划两年内让 AI 智能体承担政府工作一半,Google 最高 400 亿美元投资 Anthropic,Intel 财报显示 AI 拉动硬件业务增长。文章梳理了这些技术进展及其行业影响,…
DeepSeek V4 于 2024 年 4 月开源,参数达 1300 亿,支持 1 百万 token 上下文,兼容华为 Ascend 与 NVIDIA GPU。模型采用 Transformer‑X 架构,经过大规模多语言预训练和指令微调,在多项基准上实现领先性能。开源仓库提供完整权重、Docker 镜像及 API 示例,并附硬件兼容性对比,便于开发者快速…
DeepSeek‑V4 预览版正式开源,PPIO 首批全量上线两款模型(Pro 与 Flash),实现 1M token 超长上下文并大幅降低 FLOPs 与 KV 缓存。V4‑Pro 具备 1.6 T 参数、49 B 激活,性能媲美国际闭源模型;V4‑Flash 则提供更经济的 284 B 参数版本。模型在 Agent 能力上针对主流代码助手进行优化,交…
DeepSeek‑V4 大模型于 4 月 24 日发布并开源,支持 1 M Token 超长上下文,参数压缩至 284 B,推理成本大幅降低。华为云首发适配,推出 KVCache 分层压缩、TopK/SWA/CFA 等高性能算子以及异步调度、MTP 投机等优化,实现原生 1 M 长上下文的高效推理,并已在 MaaS 平台提供免部署 API 服务,已有金山办…
DeepSeek 发布了开源大模型 DeepSeek‑V4 预览版,首次实现 1 百万 token 超长上下文。模型采用混合稀疏‑密集 Transformer 与分层位置编码,在单卡 40GB 显存下即可推理。官方提供 Docker 镜像和微调指南,适用于文档检索、代码补全等长文本场景,显著提升了 LongChat、BookSum 等基准表现,为开源社区带…
DeepSeek V4 系列正式发布,提供 1M 超长上下文的 Pro(1.6T 参数)和更轻量的 Flash(284B 参数)两款模型。V4‑Pro 在 Agent 编码、世界知识和推理基准上接近顶级闭源模型,Flash 版在成本和速度上具优势。全新 DSA 稀疏注意力实现了上下文长度的标配化,并将在下半年批量迁移至华为算力。模型已开源,API 同步更新…
过去两周,AI 模型迎来四大新发布:GPT‑5.5、DeepSeek‑V4、Kimi K2.6 与 Images 2.0,分别在规模、跨模态、中文对话和高分辨率图像生成上实现突破。国内三大科技公司同步推出智能体工程化的中文原理论文,首次系统阐释智能体设计与安全约束。本文提供模型技术概览、关键创新点及资源链接,为研发与产品选型提供参考。