专题:deepseek-v4

按该标签聚合的大模型资讯列表(自动分类与标签提取)。8 篇文章。

社区Hacker News2026/04/26 07:444700
引入 SGLang 与 Miles 加速 DeepSeek‑V4 推理
实现基于两者的强化学习算法端到端验证

DeepSeek‑V4 在项目启动第 0 天通过 SGLang 框架和 Miles 库实现了显著的推理加速,并完成了强化学习算法的端到端验证。两者协同将推理时延降低约 30%,吞吐量提升 1.8 倍,同时在基准 RL 任务上提升收敛速度约 20%,确保模型的稳定性,为后续规模化训练和复杂场景应用奠定基础。

媒体爱范儿2026/04/25 08:415700
DeepSeek V4 开源,性能媲美闭源大模型
中美顶尖模型差距缩至 2‑3 个月

DeepSeek V4 在华为昇腾平台开源,性能接近顶级闭源模型,提供完整代码和权重,降低大模型落地门槛。小米高管称中美顶尖模型差距仅两三个月,显示国内研发速度加快。阿联酋计划两年内让 AI 智能体承担政府工作一半,Google 最高 400 亿美元投资 Anthropic,Intel 财报显示 AI 拉动硬件业务增长。文章梳理了这些技术进展及其行业影响,…

媒体InfoQ 中文2026/04/25 01:234800
DeepSeek V4 开源,1300 亿参数
支持 1 百万 token 上下文

DeepSeek V4 于 2024 年 4 月开源,参数达 1300 亿,支持 1 百万 token 上下文,兼容华为 Ascend 与 NVIDIA GPU。模型采用 Transformer‑X 架构,经过大规模多语言预训练和指令微调,在多项基准上实现领先性能。开源仓库提供完整权重、Docker 镜像及 API 示例,并附硬件兼容性对比,便于开发者快速…

媒体量子位2026/04/24 18:235800
DeepSeek‑V4 预览版发布,提供 1M 超长上下文。
PPIO 首批上线 Pro 与 Flash 两个版本,分别为 1.6 T/49 B 与 284 B 参数。

DeepSeek‑V4 预览版正式开源,PPIO 首批全量上线两款模型(Pro 与 Flash),实现 1M token 超长上下文并大幅降低 FLOPs 与 KV 缓存。V4‑Pro 具备 1.6 T 参数、49 B 激活,性能媲美国际闭源模型;V4‑Flash 则提供更经济的 284 B 参数版本。模型在 Agent 能力上针对主流代码助手进行优化,交…

媒体量子位2026/04/24 18:105700
DeepSeek‑V4 开源,支持 1 M Token 超长上下文
华为云实现 KVCache 分层压缩和多算子加速

DeepSeek‑V4 大模型于 4 月 24 日发布并开源,支持 1 M Token 超长上下文,参数压缩至 284 B,推理成本大幅降低。华为云首发适配,推出 KVCache 分层压缩、TopK/SWA/CFA 等高性能算子以及异步调度、MTP 投机等优化,实现原生 1 M 长上下文的高效推理,并已在 MaaS 平台提供免部署 API 服务,已有金山办…

媒体量子位2026/04/24 17:104800
DeepSeek‑V4 预览版发布,支持 1M token 上下文
混合稀疏‑密集 Transformer 与分层位置编码实现

DeepSeek 发布了开源大模型 DeepSeek‑V4 预览版,首次实现 1 百万 token 超长上下文。模型采用混合稀疏‑密集 Transformer 与分层位置编码,在单卡 40GB 显存下即可推理。官方提供 Docker 镜像和微调指南,适用于文档检索、代码补全等长文本场景,显著提升了 LongChat、BookSum 等基准表现,为开源社区带…

媒体量子位2026/04/24 12:175800
DeepSeek V4 发布两款模型,均支持 1M 上下文
V4‑Pro 在 Agent、知识、推理上接近闭源顶级模型

DeepSeek V4 系列正式发布,提供 1M 超长上下文的 Pro(1.6T 参数)和更轻量的 Flash(284B 参数)两款模型。V4‑Pro 在 Agent 编码、世界知识和推理基准上接近顶级闭源模型,Flash 版在成本和速度上具优势。全新 DSA 稀疏注意力实现了上下文长度的标配化,并将在下半年批量迁移至华为算力。模型已开源,API 同步更新…

媒体Gino Notes2026/04/24 08:005700
GPT‑5.5 采用混合稀疏‑密集架构,成本下降 30%。
DeepSeek‑V4、Kimi K2.6、Images 2.0 分别在多模态、中文对话、超分辨率上创新。

过去两周,AI 模型迎来四大新发布:GPT‑5.5、DeepSeek‑V4、Kimi K2.6 与 Images 2.0,分别在规模、跨模态、中文对话和高分辨率图像生成上实现突破。国内三大科技公司同步推出智能体工程化的中文原理论文,首次系统阐释智能体设计与安全约束。本文提供模型技术概览、关键创新点及资源链接,为研发与产品选型提供参考。