专题：benchmarks

按该标签聚合的大模型资讯列表（自动分类与标签提取）。共 2 篇文章。

SWE-bench 2026年2月更新：Claude 4.5与多中国模型跻身前十

官方Simon Willison2026/02/19 12:487860

SWE-bench 2026年2月更新结果显示，Claude 4.5 Opus 以76.8%解决率领先，多中国模型如MiniMax M2.5、Kimi K2.5等进入前十。测试基于SWE-bench Verified数据集，使用统一提示确保公平性，但部分数据通过自定义代码获取，引发对测试透明度的讨论。

基准测试 Claude模型大型语言模型中国的人工智能 AI编码代理

Import AI 445：超级智能发展时机与AI数学突破

原文

媒体Import AI2026/02/16 22:015770

• 探讨超级智能发展时机

• AI攻克前沿数学问题

本期Import AI综述了超级智能发展时机、AI数学问题求解能力突破、新型机器学习基准工具AIRS-BENCH的推出，以及学界对AI发展速度的争议。内容涵盖技术路线探讨、研究工具创新和伦理风险分析，为AI研究者提供多维度参考，展现AI在理论突破与应用实践中的双重进展。

机器学习推荐系统基准测试数学AI 人工智能研究