国产大模型 GLM‑5.1 以 SWE‑bench Pro 58.4% 超越 Claude Opus 4.6 与 GPT‑5.4
爱范儿2026/04/08 17:16机翻/自动摘要/自动分类
5 阅读
内容评分
技术含量
7/10
营销水分
5/10
摘要
国产模型 GLM‑5.1 在 SWE‑bench Pro 中取得 58.4% 的得分,首次超越 Claude Opus 4.6 与 GPT‑5.4。它展示了 8 小时内完整构建 Linux 桌面的持续工作能力,采用增量调优实现策略自适应,并在 KernelBench Level 3 中实现 3.6 倍加速。全程使用华为昇腾 910B 芯片训练,成本仅为对手的 1/5,已在 Hugging Face 开源 MIT 许可证。
正文
过去几天,业界频繁传出大型语言模型()竞争加剧的预警,而这一趋势已在实际测评中显现。Claude Opus 4.6 在一天内被两款新模型相继超越,其中国产模型 GLM‑5.1 的表现尤为抢眼。
Claude Mythos Preview 的冲击 Anthropic 于上午发布 Claude Mythos Preview,在 SWE‑bench Pro 基准上取得 77.8% 的得分,远高于 Claude Opus 4.6(57.3%),展示了在真实 GitHub 项目中定位并修复高难度技术问题的能力,已接近或超过多数人类程序员的水平。
GLM‑5.1 的突破 随后,智谱 AI 开源了 GLM‑5.1。该模型在同一基准上得到 58.4% 的成绩,首次在 SWE‑bench Pro 中超过 Claude Opus 4.6 以及公开的 GPT‑5.4。Hugging Face CEO Clement Delangue 对此表示祝贺,并确认 GLM‑5.1 已在平台上开源。
- 持续工作能力:在 8 小时内,GLM‑5.1 从零开始构建完整的 Linux 桌面系统,包括桌面环境、窗口管理器、应用、VPN 管理、中文字体以及游戏库,整个过程未人工干预或代码审查。
- 增量调优机制:模型采用固定策略下的增量调优,能够在遇到瓶颈时主动切换优化策略,避免长时间停滞。
- 计算效率提升:在 KernelBench Level 3 测试中实现 3.6× 加速。
- 算力与成本:全部训练基于华为昇腾 910B 芯片,训练成本约为 Claude Opus 的 1/5,展现出在算力受限环境下的高性价比。
- 开源许可:采用 MIT License,支持自由修改与商业使用。
实际使用入口
- 官方 API: https://docs.bigmodel.cn/cn/guide/models/text/glm-5.1
- Z.ai: https://docs.z.ai/guides//glm-5.1
- GitHub: https://github.com/zai-org/GLM-5
- Hugging Face: https://huggingface.co/zai-org/GLM-5.1
- ModelScope: https://modelscope.cn/models/ZhipuAI/GLM-5.1
GLM‑5.1 虽在推理速度上仍有提升空间,但其在基准测试、增量调优和低成本训练方面的表现,标志着国产在全球竞争格局中的重要里程碑。