专题:benchmark

按该标签聚合的大模型资讯列表(自动分类与标签提取)。31 篇文章。

社区Hacker News2026/04/12 03:155810
新架构与稀疏激活提升长序列理解
混合精度多阶段训练加速收敛

作者团队通过层级化注意力、稀疏激活、混合精度预训练和自我纠错回路等创新,显著提升了AI代理在MMLU、ARC‑Challenge、AgentBench等基准的表现,刷新纪录并提供了实现细节与未来研究路线。

媒体InfoQ 中文2026/04/09 22:004720
Claude 3.5 Sonnet 成本低、时延快,准确率略低于 GPT‑4
多语言基准覆盖 Python、JS、Java、C#,提供 Pass@1 数据

InfoQ 对 Anthropic Claude 系列模型进行代码生成基准测试,覆盖 Python、JavaScript、Java、C# 四语言。评估指标包括 Pass@1、响应时延和每千字符成本,并与 GPT‑4、Gemini 等主流模型对比。结果显示 Claude 3.5 Sonnet 在成本和时延上具优势,准确率略逊于 GPT‑4;Claude 2.…

官方Microsoft Research Blog2026/04/02 00:007950
18项能力量化模型与任务需求
88%跨任务预测准确率

ADeLe是微软提出的新AI评估框架,通过18项核心能力量化模型与任务需求,实现跨任务性能预测与解释。其核心亮点包括结构化能力概要、88%预测准确率、模型对比分析及对传统基准测试的改进。该方法为AI系统评估提供了更系统、透明的诊断工具,有助于识别模型局限性并优化基准设计。

官方Microsoft Research Blog2026/03/27 03:025860
基于AI2-THOR模拟环境
评估视觉规划能力

AsgardBench是基于AI2-THOR的开源基准测试工具,用于评估AI代理在视觉交互规划任务中的表现。通过模拟真实场景,测试AI系统如何利用视觉信息动态调整计划,揭示视觉感知对规划成功率的关键作用及现有模型在复杂环境中的局限性,为提升AI视觉交互能力提供研究方向。

官方Microsoft Research Blog2026/03/27 00:035850
集成规划与空间定位
处理长时序复杂任务

GroundedPlanBench是微软提出的机器人任务规划框架,通过整合空间信息与视觉语言模型,解决长时序复杂任务中的规划与定位分离问题。该框架利用DROID数据集构建基准,采用显式/隐式指令双模式,结合SAM3模型实现精准空间定位。实验表明其在真实场景中提升任务成功率,尤其擅长处理多步骤和隐式指令任务,为机器人研究提供新方法。

媒体AINews2026/03/24 13:445730
ARC-AGI-3测试凸显人类推理优势
LangChain推出Fleet共享技能

ARC-AGI-3基准测试揭示当前LLM在交互式环境中的推理局限,人类表现远超模型。文章分析了测试争议,同时介绍了LangChain共享技能、Claude Code自动模式等创新方案,以及浏览器/编码代理训练系统的演进趋势,展现AI代理技术的多维突破。

官方Simon Willison2026/03/20 10:572950
比较了SQLite中五种标签实现策略的性能
多对多表结构表现最优,FTS5次之

该研究通过实证基准测试,对比了SQLite中实现标签功能的五种技术方案。结果显示,传统多对多表结构性能最佳,FTS5次之,LIKE查询表现意外良好,而JSON数组方案效率最低。该实验为开发者在构建标签系统时提供了可量化的性能依据,尤其适用于嵌入式应用与轻量级后端场景,兼具实用价值与工程指导意义。

媒体量子位2026/03/14 14:257830
Cursor发布CursorBench评测基准
评测强调真实任务与执行效率

Cursor推出CursorBench评测基准,强调真实任务与高效执行,与SWE-Bench等传统基准形成对比。评测方法结合线下标准化测试与线上用户反馈,旨在更准确地反映AI编程智能体的实际表现。

社区Reddit r/LocalLLaMA2026/02/23 22:484850

本文对 17 个本地 LLM 在真实项目管理工具调用任务上的性能进行了基准测试,对比了单次请求和智能循环两种执行模式。测试涵盖了不同难度的任务,并评估了模型在缺乏专门工具调用训练下的表现。结果表明,执行模式对模型性能影响巨大,为选择和优化本地 LLM 在实际应用中的工具调用能力提供了重要参考。

媒体机器之心2026/02/21 21:564940

北京航空航天大学团队在ICLR 2026上提出Code2Bench框架,旨在解决大语言模型(LLM)代码生成评测中数据污染和测试严谨性不足导致的“高分幻觉”问题。该框架基于“双重扩展”哲学,通过动态获取GitHub最新代码(防污染)和引入基于属性的测试(PBT)及100%分支覆盖率(高严谨性),构建了一个更动态、真实、严苛且具诊断性的评测范式。Code2B…

媒体AINews2026/02/21 13:445770

本文汇总了2026年2月19日AI领域的多项技术更新,涵盖模型性能提升、基准测试进展、AI代理开发及硬件创新。重点包括Gemini 3.1 Pro的推理优化、Claude Opus 4.6的评估、SWE-bench等基准测试的动态,以及多个开源项目和工具的最新动向。

社区Reddit r/LocalLLaMA2026/02/20 22:545760

DocParse Arena 是一款开源自托管平台,帮助企业在本地环境中对特定文档(如自定义发票、韩文名片、复杂简历)进行 VLM 盲测,并通过私有 ELO 排行榜评估模型优劣。它支持本地模型安全接入、专业后处理插件、并行 PDF 拆分加速,以及一键 Docker 部署,适合对隐私和定制基准有高要求的场景。

媒体机器之心2026/02/20 22:455830

香港大学与上海交大联合推出 AutoBio,一个专为生物实验室设计的 VLA 模型仿真与评测平台。该平台解决了现有研究中对专业科学场景(尤其是生物实验室)的 VLA 模型评估不足的问题。AutoBio 构建了高保真仿真环境,模拟了生物实验室特有的复杂操作和视觉挑战,并提供了一套标准化实验任务基准。评测结果揭示了当前主流 VLA 模型在处理高精度操作、细粒度…

媒体InfoQ 中文2026/02/20 17:196850

Google DeepMind推出Gemini 3.1 Pro,12项基准测试中全面超越Claude和GPT-4。核心亮点包括多模态能力增强、推理效率提升和开发者支持全面升级。该模型在代码生成、数学推理和创意写作等场景表现优异,标志着AI大模型性能的新高度,为开发者提供更强大的工具支持。

媒体AINews2026/02/18 13:447840
Claude Opus/Sonnet 4.6智能指数提升
Qwen 3.5开源并优化推理效率

多款AI模型更新,包括Claude Opus/Sonnet 4.6、Qwen 3.5、GLM-5及Gemini 3.1 Pro。重点在于智能指数提升、推理效率优化、开源模型权重及社区表现。技术报告和讨论揭示了模型在自主性、训练成本和性能上的进展。

官方OpenAI Blog2026/02/18 08:005740

OpenAI 与 Paradigm 联合发布 EVMbench,提供针对 AI 代理的智能合约漏洞检测、修复和利用能力的统一基准。工具收录 30+ 高危漏洞,支持多维度评分并开放 Docker 与 Python SDK,首批评测覆盖主流大模型,帮助安全团队快速评估 AI 在合约安全中的实际表现。