专题：ai-evaluation

按该标签聚合的大模型资讯列表（自动分类与标签提取）。共 2 篇文章。

ADeLe：AI跨任务性能评估与预测新框架

官方Microsoft Research Blog2026/04/02 00:007950

• 18项能力量化模型与任务需求

• 88%跨任务预测准确率

ADeLe是微软提出的新AI评估框架，通过18项核心能力量化模型与任务需求，实现跨任务性能预测与解释。其核心亮点包括结构化能力概要、88%预测准确率、模型对比分析及对传统基准测试的改进。该方法为AI系统评估提供了更系统、透明的诊断工具，有助于识别模型局限性并优化基准设计。

媒体Import AI2026/02/23 21:315850

• LLM核危机决策倾向显著

• 中国发布AI安全评估框架

本文聚焦AI评估体系构建与应用，分析LLM在核危机模拟中的决策倾向，解读中国ForesightSafety Bench安全评估框架，同时指出AI在科学任务中的技术瓶颈。内容涵盖评估方法论、模型行为研究、安全框架设计及基准测试结果，为AI治理与技术发展提供多维度参考。