国产大模型 GLM‑5.1 以 SWE‑bench Pro 58.4% 超越 Claude Opus 4.6 与 GPT‑5.4

过去几天，业界频繁传出大型语言模型（）竞争加剧的预警，而这一趋势已在实际测评中显现。Claude Opus 4.6 在一天内被两款新模型相继超越，其中国产模型 GLM‑5.1 的表现尤为抢眼。

Claude Mythos Preview 的冲击 Anthropic 于上午发布 Claude Mythos Preview，在 SWE‑bench Pro 基准上取得 77.8% 的得分，远高于 Claude Opus 4.6（57.3%），展示了在真实 GitHub 项目中定位并修复高难度技术问题的能力，已接近或超过多数人类程序员的水平。

GLM‑5.1 的突破 随后，智谱 AI 开源了 GLM‑5.1。该模型在同一基准上得到 58.4% 的成绩，首次在 SWE‑bench Pro 中超过 Claude Opus 4.6 以及公开的 GPT‑5.4。Hugging Face CEO Clement Delangue 对此表示祝贺，并确认 GLM‑5.1 已在平台上开源。

持续工作能力：在 8 小时内，GLM‑5.1 从零开始构建完整的 Linux 桌面系统，包括桌面环境、窗口管理器、应用、VPN 管理、中文字体以及游戏库，整个过程未人工干预或代码审查。
增量调优机制：模型采用固定策略下的增量调优，能够在遇到瓶颈时主动切换优化策略，避免长时间停滞。
计算效率提升：在 KernelBench Level 3 测试中实现 3.6× 加速。
算力与成本：全部训练基于华为昇腾 910B 芯片，训练成本约为 Claude Opus 的 1/5，展现出在算力受限环境下的高性价比。
开源许可：采用 MIT License，支持自由修改与商业使用。

实际使用入口

官方 API: https://docs.bigmodel.cn/cn/guide/models/text/glm-5.1
Z.ai: https://docs.z.ai/guides//glm-5.1
GitHub: https://github.com/zai-org/GLM-5
Hugging Face: https://huggingface.co/zai-org/GLM-5.1
ModelScope: https://modelscope.cn/models/ZhipuAI/GLM-5.1

GLM‑5.1 虽在推理速度上仍有提升空间，但其在基准测试、增量调优和低成本训练方面的表现，标志着国产在全球竞争格局中的重要里程碑。

国产大模型 GLM‑5.1 以 SWE‑bench Pro 58.4% 超越 Claude Opus 4.6 与 GPT‑5.4

内容评分

摘要

正文

标签