大模型资讯聚合站

专题：benchmark-testing

按该标签聚合的大模型资讯列表（自动分类与标签提取）。共 5 篇文章。

Anthropic发布Claude Opus 4.7：多维度性能全面升级

媒体Latent Space2026/04/17 09:367900

• 多维度性能全面升级

• 支持4K图像处理能力

Anthropic推出Claude Opus 4.7，支持4096x4096图像处理，采用新tokenizer架构，新增xhigh推理模式。在多项基准测试中表现优于前代版本，尤其在复杂任务准确率提升12-15%，同时降低推理延迟，为开发者提供更高效的AI解决方案。

图像处理分词器推理模式基准测试模型迭代

ADeLe：AI跨任务性能评估与预测新框架

官方Microsoft Research Blog2026/04/02 00:007950

• 18项能力量化模型与任务需求

• 88%跨任务预测准确率

ADeLe是微软提出的新AI评估框架，通过18项核心能力量化模型与任务需求，实现跨任务性能预测与解释。其核心亮点包括结构化能力概要、88%预测准确率、模型对比分析及对传统基准测试的改进。该方法为AI系统评估提供了更系统、透明的诊断工具，有助于识别模型局限性并优化基准设计。

AI评估 LLM基准测试模型能力分析预测性分析基准测试设计

AsgardBench：视觉交互规划的AI代理评估基准

官方Microsoft Research Blog2026/03/27 03:025860

• 基于AI2-THOR模拟环境

• 评估视觉规划能力

AsgardBench是基于AI2-THOR的开源基准测试工具，用于评估AI代理在视觉交互规划任务中的表现。通过模拟真实场景，测试AI系统如何利用视觉信息动态调整计划，揭示视觉感知对规划成功率的关键作用及现有模型在复杂环境中的局限性，为提升AI视觉交互能力提供研究方向。

开源工具开源工具 AI代理评估动态反馈机制环境适应性

AI代理技术加速演进：多智能体协作与生态扩展新动态

媒体AINews2026/03/24 13:445840

• Anthropic推出多智能体协作框架

• 设计工具集成AI编辑功能

本文汇总AI代理领域最新技术进展，涵盖多智能体协作框架、AI编辑工具集成、API兼容性升级、强化学习环境扩展及基准测试突破。重点展示Anthropic、Figma、Nous、AI2、GenReasoning和Zhipu在基础设施优化、工具创新与生态构建方面的成果，凸显AI代理技术向实用化和标准化发展的趋势。

AI模型开源框架 AI安全行业趋势中国AI

Import AI 446：LLM核危机模拟行为分析；中国AI安全评估框架发布；AI测量与政策研究

媒体Import AI2026/02/23 21:315850

• LLM核危机决策倾向显著

• 中国发布AI安全评估框架

本文聚焦AI评估体系构建与应用，分析LLM在核危机模拟中的决策倾向，解读中国ForesightSafety Bench安全评估框架，同时指出AI在科学任务中的技术瓶颈。内容涵盖评估方法论、模型行为研究、安全框架设计及基准测试结果，为AI治理与技术发展提供多维度参考。

AI治理大语言模型安全科学AI AI 安全大型语言模型