ADeLe:AI跨任务性能评估与预测新框架原文官方Microsoft Research Blog2026/04/02 00:007950• 18项能力量化模型与任务需求• 88%跨任务预测准确率ADeLe是微软提出的新AI评估框架,通过18项核心能力量化模型与任务需求,实现跨任务性能预测与解释。其核心亮点包括结构化能力概要、88%预测准确率、模型对比分析及对传统基准测试的改进。该方法为AI系统评估提供了更系统、透明的诊断工具,有助于识别模型局限性并优化基准设计。AI评估LLM基准测试模型能力分析预测分析基准测试设计