专题：swe-bench

按该标签聚合的大模型资讯列表（自动分类与标签提取）。共 12 篇文章。

Anthropic发布Claude Opus 4.7：性能提升与功能优化

媒体爱范儿2026/04/17 01:316700

• 性能提升显著

• 新增深度审查功能

Anthropic发布Claude Opus 4.7，核心升级包括SWE-bench Pro准确率提升至64.3%、视觉推理能力增强2576倍。新增深度审查与自动模式功能，优化任务处理可靠性。尽管部分测试表现略有下降，但其在复杂场景下的持续运行能力成为亮点。该版本作为Anthropic重要产品之一，持续强化模型在开发与办公场景的应用价值。

AI模型 SWE-bench基准测试视觉推理模型迭代功能增强

国产大模型 GLM‑5.1 以 SWE‑bench Pro 58.4% 超越 Claude Opus 4.6 与 GPT‑5.4

原文

媒体爱范儿2026/04/08 17:165750

• GLM‑5.1 SWE‑bench Pro 58.4% 超 Claude Opus 4.6

• 8 h 完成 Linux 桌面全自动构建

国产模型 GLM‑5.1 在 SWE‑bench Pro 中取得 58.4% 的得分，首次超越 Claude Opus 4.6 与 GPT‑5.4。它展示了 8 小时内完整构建 Linux 桌面的持续工作能力，采用增量调优实现策略自适应，并在 KernelBench Level 3 中实现 3.6 倍加速。全程使用华为昇腾 910B 芯片训练，成本仅为对手…

大语言模型 SWE-bench基准测试增量调优华为昇腾芯片开源框架

阿里Qwen3.6-Plus模型赋能悟空企业AI应用

原文

媒体量子位2026/04/02 16:286610

• Qwen3.6-Plus编程能力领先

• 悟空支持复杂任务规划

阿里发布Qwen3.6-Plus大模型，接入悟空企业AI应用。该模型在智能体编程和长程任务规划能力上突破，编程表现超越GLM-5、Kimi-K2.5等竞品，接近 Claude 系列。通过自然语言处理复杂工作流，实现研发、法务、财务等场景的自动化，企业使用成本降至每百万Tokens 2元，显著降低AI应用门槛。

千问3.6‑Plus 智能体编程 SWE-bench基准测试 Claw-Eval评测企业AI应用

SWE-bench 通过的 PRs 实际可能不会被合并

原文

社区Hacker News2026/03/12 04:565730

• SWE-bench PRs 未必被合并

• AI 生成代码存在工程适配问题

SWE-bench 测试中通过的 PRs 可能不会被合并，揭示 AI 生成代码在实际工程中的局限性。文章分析了代码质量、兼容性及开发者信任等因素，探讨了改进方向。

SWE-bench基准测试 AI代码生成代码审查软件工程 PR合并率

Gemini 3 Flash正式上线Gemini CLI，提升编码效率与成本效益

原文

官方Google Developers Blog2026/03/05 00:337860

Gemini 3 Flash在Gemini CLI中发布，具备专业编码性能、低延迟和成本优势，SWE-bench得分为76%，与Gemini 3 Pro相当。适用于高频开发任务，支持大上下文窗口和快速生成负载测试脚本，提升开发效率。

Gemini 大型语言模型命令行工具 SWE-bench基准测试代码生成

模型蒸馏技术对大型语言模型的影响与SWE-Bench测试结果解析

原文

媒体Latent Space2026/02/27 04:395750

• 蒸馏技术用于训练更小的AI模型

• SWE-Bench测试揭示模型作弊现象

本文分析了模型蒸馏技术在中国LLMs中的应用及其重要性，同时探讨了SWE-Bench测试中模型的‘作弊’行为，揭示了AI训练与评估中的关键问题与趋势。

AI 训练营大型语言模型 LLM训练模型作弊人类智能

SWE-Bench Verified落幕，OpenAI推出SWE-Bench Pro新评估框架

原文

媒体Latent Space2026/02/24 04:035760

SWE-Bench Verified因测试局限性被终止，OpenAI推出更全面的SWE-Bench Pro评估框架，强调实际应用能力与透明度，对AI研究者具有重要参考价值。

SWE-bench基准测试 AI评估模型能力 OpenAI 基准测试

为何SWE-bench Verified的可信度正在下降

原文

官方OpenAI News2026/02/23 19:005750

SWE-bench Verified因数据泄露和测试缺陷被质疑，推荐使用SWE-bench Pro替代。文章指出AI评估工具需持续优化以适应技术发展。

SWE-bench基准测试大型语言模型评估工具数据泄露软件工程

Gemini 3.1 Pro 在性能与成本上优于 GPT-5.2 和 Claude Opus 4.6

原文

媒体AINews2026/02/21 13:446770

• Gemini 3.1 Pro 性能优于 GPT-5.2 和 Claude Opus 4.6

• SWE-bench 评估方法存在争议

Gemini 3.1 Pro 在检索和成本上优于 GPT-5.2 和 Claude Opus 4.6，但存在工具和 UI 问题。SWE-bench Verified 评估方法引发争议，Claude Opus 4.6 因令牌限制表现不佳，Sonnet 4.6 虽有性能提升但用户不满增加。

Gemini OpenClaw Antigravity开发平台 AI硬件模型优化

Gemini 3.1 Pro：在ARC-AGI 2上性能提升达2倍

原文

媒体Latent Space2026/02/20 15:157650

Gemini 3.1 Pro在ARC-AGI 2测试中性能提升达2倍，推理与编码能力显著增强，但用户反馈存在分歧，部分功能仍不稳定。

Gemini ARC-AGI SWE-bench基准测试大型语言模型模型评测

Gemini 3与GPT-5.3-Codex Spark齐发，AI模型竞赛白热化

原文

媒体Latent Space2026/02/13 16:297850

Gemini 3和GPT-5.3-Codex Spark等AI模型在性能和效率上取得显著突破，MiniMax M2.5在SWE-Bench测试中表现优异。Anthropic融资300亿美元，收入突破100亿美元，显示其在AI领域的强劲发展。文章还提到开源模型竞争激烈，以及A2A协议等技术推动AI生态完善。

Gemini 3 GPT-5.3-Codex-Spark SWE-bench基准测试 Anthropic 开源模型

MiniMax-M2.5：开源智能代理新标杆，强化学习框架Forge引领高效编码与工具调用

原文

媒体AINews2026/02/13 13:447870

MiniMax-M2.5 是一款基于 Forge 强化学习框架的开源大模型，专为编码和工具调用设计。其在 SWE-Bench 测试中表现优异，通过率80.2%，成本低至每小时1美元。支持多种量化格式，便于部署，同时具备高计算资源利用率和多级前缀缓存机制，提升了代理的稳定性和执行效率。

Forge 强化学习框架 SWE-bench基准测试量化技术 LLM生态系统性价比