官方Simon Willison2026/02/19 12:487860
SWE-bench 2026年2月更新结果显示,Claude 4.5 Opus 以76.8%解决率领先,多中国模型如MiniMax M2.5、Kimi K2.5等进入前十。测试基于SWE-bench Verified数据集,使用统一提示确保公平性,但部分数据通过自定义代码获取,引发对测试透明度的讨论。
按该标签聚合的大模型资讯列表(自动分类与标签提取)。共 2 篇文章。
SWE-bench 2026年2月更新结果显示,Claude 4.5 Opus 以76.8%解决率领先,多中国模型如MiniMax M2.5、Kimi K2.5等进入前十。测试基于SWE-bench Verified数据集,使用统一提示确保公平性,但部分数据通过自定义代码获取,引发对测试透明度的讨论。
本期Import AI综述了超级智能发展时机、AI数学问题求解能力突破、新型机器学习基准工具AIRS-BENCH的推出,以及学界对AI发展速度的争议。内容涵盖技术路线探讨、研究工具创新和伦理风险分析,为AI研究者提供多维度参考,展现AI在理论突破与应用实践中的双重进展。