专题：benchmark

按该标签聚合的大模型资讯列表（自动分类与标签提取）。共 31 篇文章。

突破顶级AI代理基准：新架构与训练策略实现纪录刷新

原文

社区Hacker News2026/04/12 03:155810

• 新架构与稀疏激活提升长序列理解

• 混合精度多阶段训练加速收敛

作者团队通过层级化注意力、稀疏激活、混合精度预训练和自我纠错回路等创新，显著提升了AI代理在MMLU、ARC‑Challenge、AgentBench等基准的表现，刷新纪录并提供了实现细节与未来研究路线。

AI代理基准测试模型架构训练优化自我纠错回路

Claude 代码生成基准评测：多语言效率、成本与竞争模型对比

原文

媒体InfoQ 中文2026/04/09 22:004720

• Claude 3.5 Sonnet 成本低、时延快，准确率略低于 GPT‑4

• 多语言基准覆盖 Python、JS、Java、C#，提供 Pass@1 数据

InfoQ 对 Anthropic Claude 系列模型进行代码生成基准测试，覆盖 Python、JavaScript、Java、C# 四语言。评估指标包括 Pass@1、响应时延和每千字符成本，并与 GPT‑4、Gemini 等主流模型对比。结果显示 Claude 3.5 Sonnet 在成本和时延上具优势，准确率略逊于 GPT‑4；Claude 2.…

代码生成技术基准测试大语言模型 Anthropic Claude 模型对比

ADeLe：AI跨任务性能评估与预测新框架

原文

官方Microsoft Research Blog2026/04/02 00:007950

• 18项能力量化模型与任务需求

• 88%跨任务预测准确率

ADeLe是微软提出的新AI评估框架，通过18项核心能力量化模型与任务需求，实现跨任务性能预测与解释。其核心亮点包括结构化能力概要、88%预测准确率、模型对比分析及对传统基准测试的改进。该方法为AI系统评估提供了更系统、透明的诊断工具，有助于识别模型局限性并优化基准设计。

AI评估 LLM基准测试模型能力分析预测性分析基准测试设计

欧盟终结聊天监控法案，AI助力个人历史整理与评估

原文

媒体SuperTechFans2026/03/27 07:334780

• 欧盟叫停聊天监控法案

• AI构建个人历史百科

欧盟叫停‘Chat Control’法案，保护用户隐私；AI用于整理家族历史，构建个人百科全书；ARC-AGI-3评估AI代理的智能水平。文章涵盖政策、AI应用与技术评估，具有较高的技术参考价值。

隐私人工智能开源项目/工具/框架基准测试数字权利

AsgardBench：视觉交互规划的AI代理评估基准

原文

官方Microsoft Research Blog2026/03/27 03:025860

• 基于AI2-THOR模拟环境

• 评估视觉规划能力

AsgardBench是基于AI2-THOR的开源基准测试工具，用于评估AI代理在视觉交互规划任务中的表现。通过模拟真实场景，测试AI系统如何利用视觉信息动态调整计划，揭示视觉感知对规划成功率的关键作用及现有模型在复杂环境中的局限性，为提升AI视觉交互能力提供研究方向。

开源工具开源工具 AI代理评估动态反馈机制环境适应性

GroundedPlanBench：融合空间感知的机器人任务规划框架

原文

官方Microsoft Research Blog2026/03/27 00:035850

• 集成规划与空间定位

• 处理长时序复杂任务

GroundedPlanBench是微软提出的机器人任务规划框架，通过整合空间信息与视觉语言模型，解决长时序复杂任务中的规划与定位分离问题。该框架利用DROID数据集构建基准，采用显式/隐式指令双模式，结合SAM3模型实现精准空间定位。实验表明其在真实场景中提升任务成功率，尤其擅长处理多步骤和隐式指令任务，为机器人研究提供新方法。

多模态语言模型视频分割机器人规划基准测试视频到空间规划

ARC-AGI-3基准测试揭示AI代理推理能力瓶颈，行业创新加速发展

原文

媒体AINews2026/03/24 13:445730

• ARC-AGI-3测试凸显人类推理优势

• LangChain推出Fleet共享技能

ARC-AGI-3基准测试揭示当前LLM在交互式环境中的推理局限，人类表现远超模型。文章分析了测试争议，同时介绍了LangChain共享技能、Claude Code自动模式等创新方案，以及浏览器/编码代理训练系统的演进趋势，展现AI代理技术的多维突破。

AI模型 GPU硬件多模态处理音乐生成 AI社区

SQLite标签实现性能基准：五种策略实测对比

原文

官方Simon Willison2026/03/20 10:572950

• 比较了SQLite中五种标签实现策略的性能

• 多对多表结构表现最优，FTS5次之

该研究通过实证基准测试，对比了SQLite中实现标签功能的五种技术方案。结果显示，传统多对多表结构性能最佳，FTS5次之，LIKE查询表现意外良好，而JSON数组方案效率最低。该实验为开发者在构建标签系统时提供了可量化的性能依据，尤其适用于嵌入式应用与轻量级后端场景，兼具实用价值与工程指导意义。

SQLite数据库标签系统基准测试 FTS5 json_each函数

AI智能体实践评估：基准测试、框架分析与经验总结

原文

媒体InfoQ 中文2026/03/18 20:005830

• 评估主流智能体框架优劣

• 展示多场景应用效果

本文对AI智能体技术进行全面评估，涵盖框架分析、基准测试和应用案例，为开发者提供实践指导与技术洞察。

AI代理框架基准测试应用落地开发实践

Cursor发布新评测基准CursorBench，挑战AI编程智能体效率

原文

媒体量子位2026/03/14 14:257830

• Cursor发布CursorBench评测基准

• 评测强调真实任务与执行效率

Cursor推出CursorBench评测基准，强调真实任务与高效执行，与SWE-Bench等传统基准形成对比。评测方法结合线下标准化测试与线上用户反馈，旨在更准确地反映AI编程智能体的实际表现。

AI编程评测基准 CursorBench 智能体评测代码质量效率评估

本地 LLM 在真实项目管理工具调用上的性能基准测试：单次请求 vs. 智能循环

原文

社区Reddit r/LocalLLaMA2026/02/23 22:484850

本文对 17 个本地 LLM 在真实项目管理工具调用任务上的性能进行了基准测试，对比了单次请求和智能循环两种执行模式。测试涵盖了不同难度的任务，并评估了模型在缺乏专门工具调用训练下的表现。结果表明，执行模式对模型性能影响巨大，为选择和优化本地 LLM 在实际应用中的工具调用能力提供了重要参考。

大语言模型本地大语言模型基准测试工具调用代理循环

Code2Bench：北航团队发布动态代码LLM评测新范式，破解数据污染与高分幻觉

原文

媒体机器之心2026/02/21 21:564940

北京航空航天大学团队在ICLR 2026上提出Code2Bench框架，旨在解决大语言模型（LLM）代码生成评测中数据污染和测试严谨性不足导致的“高分幻觉”问题。该框架基于“双重扩展”哲学，通过动态获取GitHub最新代码（防污染）和引入基于属性的测试（PBT）及100%分支覆盖率（高严谨性），构建了一个更动态、真实、严苛且具诊断性的评测范式。Code2B…

大语言模型代码生成技术基准测试数据污染 PBT

2026年2月19日AI技术动态：模型升级、基准测试与开源进展

原文

媒体AINews2026/02/21 13:445770

本文汇总了2026年2月19日AI领域的多项技术更新，涵盖模型性能提升、基准测试进展、AI代理开发及硬件创新。重点包括Gemini 3.1 Pro的推理优化、Claude Opus 4.6的评估、SWE-bench等基准测试的动态，以及多个开源项目和工具的最新动向。

Google Gemini 桌面应用基准测试代理系统开源项目/工具/框架硬件兼容性

DocParse Arena：自托管私有 VLM 文档解析基准与 ELO 排行榜

原文

社区Reddit r/LocalLLaMA2026/02/20 22:545760

DocParse Arena 是一款开源自托管平台，帮助企业在本地环境中对特定文档（如自定义发票、韩文名片、复杂简历）进行 VLM 盲测，并通过私有 ELO 排行榜评估模型优劣。它支持本地模型安全接入、专业后处理插件、并行 PDF 拆分加速，以及一键 Docker 部署，适合对隐私和定制基准有高要求的场景。

视觉语言模型光学字符识别基准测试 Docker 隐私

AutoBio：首个生物实验室 VLA 模型仿真与评测平台，揭示当前模型能力边界

原文

媒体机器之心2026/02/20 22:455830

香港大学与上海交大联合推出 AutoBio，一个专为生物实验室设计的 VLA 模型仿真与评测平台。该平台解决了现有研究中对专业科学场景（尤其是生物实验室）的 VLA 模型评估不足的问题。AutoBio 构建了高保真仿真环境，模拟了生物实验室特有的复杂操作和视觉挑战，并提供了一套标准化实验任务基准。评测结果揭示了当前主流 VLA 模型在处理高精度操作、细粒度…

视觉-语言-动作机器人控制技术模拟基准测试 AI科学应用

Google Gemini 3.1 Pro：12项基准测试全面超越Claude和GPT-4

原文

媒体InfoQ 中文2026/02/20 17:196850

Google DeepMind推出Gemini 3.1 Pro，12项基准测试中全面超越Claude和GPT-4。核心亮点包括多模态能力增强、推理效率提升和开发者支持全面升级。该模型在代码生成、数学推理和创意写作等场景表现优异，标志着AI大模型性能的新高度，为开发者提供更强大的工具支持。

Google Gemini 桌面应用 AI模型基准测试多模态生成开发工具

谷歌发布Gemini 3.1 Pro：推理与编码能力提升显著

原文

媒体AINews2026/02/19 13:447860

• 推理性能提升77.1%

• 编码能力达80.6%

谷歌发布Gemini 3.1 Pro，显著提升推理与编码能力，通过ARC-AGI 2和SWE-Bench测试验证。独立机构认可其性能与成本效益，尽管存在部分质疑，但整体获得业界高度评价。

Google Gemini 桌面应用大语言模型基准测试 API 接口 Vertex AI

多AI模型更新与技术进展：Claude Opus、Qwen 3.5、GLM-5及Gemini 3.1 Pro

原文

媒体AINews2026/02/18 13:447840

• Claude Opus/Sonnet 4.6智能指数提升

• Qwen 3.5开源并优化推理效率

多款AI模型更新，包括Claude Opus/Sonnet 4.6、Qwen 3.5、GLM-5及Gemini 3.1 Pro。重点在于智能指数提升、推理效率优化、开源模型权重及社区表现。技术报告和讨论揭示了模型在自主性、训练成本和性能上的进展。

大语言模型代理系统基准测试检索增强生成推理速度

OpenAI 与 Paradigm 联手发布 EVMbench：AI 代理智能合约漏洞评估基准

原文

官方OpenAI Blog2026/02/18 08:005740

OpenAI 与 Paradigm 联合发布 EVMbench，提供针对 AI 代理的智能合约漏洞检测、修复和利用能力的统一基准。工具收录 30+ 高危漏洞，支持多维度评分并开放 Docker 与 Python SDK，首批评测覆盖主流大模型，帮助安全团队快速评估 AI 在合约安全中的实际表现。

以太坊虚拟机智能合约安全 AI代理基准测试大语言模型

socOCRbench：专为社会科学文档设计的OCR基准测试工具

原文

社区Reddit r/LocalLLaMA2026/02/16 09:515740

socOCRbench 是一个专为社会科学文档设计的OCR基准测试工具，旨在解决现有基准测试难以区分模型性能的问题。它聚焦于复杂实际场景，为研究者和开发者提供更贴近现实的评估标准，核心亮点在于其领域针对性和实际应用导向。

光学字符识别基准测试社会科学模型自评估 AI应用