专题:swe-bench

按该标签聚合的大模型资讯列表(自动分类与标签提取)。12 篇文章。

媒体爱范儿2026/04/17 01:316700
性能提升显著
新增深度审查功能

Anthropic发布Claude Opus 4.7,核心升级包括SWE-bench Pro准确率提升至64.3%、视觉推理能力增强2576倍。新增深度审查与自动模式功能,优化任务处理可靠性。尽管部分测试表现略有下降,但其在复杂场景下的持续运行能力成为亮点。该版本作为Anthropic重要产品之一,持续强化模型在开发与办公场景的应用价值。

媒体爱范儿2026/04/08 17:165750
GLM‑5.1 SWE‑bench Pro 58.4% 超 Claude Opus 4.6
8 h 完成 Linux 桌面全自动构建

国产模型 GLM‑5.1 在 SWE‑bench Pro 中取得 58.4% 的得分,首次超越 Claude Opus 4.6 与 GPT‑5.4。它展示了 8 小时内完整构建 Linux 桌面的持续工作能力,采用增量调优实现策略自适应,并在 KernelBench Level 3 中实现 3.6 倍加速。全程使用华为昇腾 910B 芯片训练,成本仅为对手…

媒体量子位2026/04/02 16:286610
Qwen3.6-Plus编程能力领先
悟空支持复杂任务规划

阿里发布Qwen3.6-Plus大模型,接入悟空企业AI应用。该模型在智能体编程和长程任务规划能力上突破,编程表现超越GLM-5、Kimi-K2.5等竞品,接近 Claude 系列。通过自然语言处理复杂工作流,实现研发、法务、财务等场景的自动化,企业使用成本降至每百万Tokens 2元,显著降低AI应用门槛。

媒体AINews2026/02/21 13:446770
Gemini 3.1 Pro 性能优于 GPT-5.2 和 Claude Opus 4.6
SWE-bench 评估方法存在争议

Gemini 3.1 Pro 在检索和成本上优于 GPT-5.2 和 Claude Opus 4.6,但存在工具和 UI 问题。SWE-bench Verified 评估方法引发争议,Claude Opus 4.6 因令牌限制表现不佳,Sonnet 4.6 虽有性能提升但用户不满增加。

媒体AINews2026/02/13 13:447870

MiniMax-M2.5 是一款基于 Forge 强化学习框架的开源大模型,专为编码和工具调用设计。其在 SWE-Bench 测试中表现优异,通过率80.2%,成本低至每小时1美元。支持多种量化格式,便于部署,同时具备高计算资源利用率和多级前缀缓存机制,提升了代理的稳定性和执行效率。