首页/详情

Game Arena 扩容:新增扑克、狼人游戏,Gemini 3 Pro 与 Flash 领跑象棋基准

Google AI Blog2026/02/03 01:00机翻/自动摘要/自动分类
1 阅读

内容评分

技术含量
5/10
营销水分
5/10

摘要

Game Arena 正在加入扑克和狼人两款新游戏,以丰富 AI 基准测试的场景覆盖;在象棋基准中,Gemini 3 Pro 与 Flash 继续领跑。平台提供统一评测框架和 API,帮助研究者快速对比模型在多种策略游戏中的推理与决策能力。

正文

我们正在为 AI 基准测试平台 Game Arena 进行功能扩展,近期将加入两款全新游戏——扑克(Poker)和狼人(Werewolf)。这两类游戏对推理、策略规划以及多轮对话的要求与传统棋类截然不同,为评估大语言模型在不确定信息和隐蔽推理场景下的表现提供了宝贵的测试维度。与此同时,在已上线的象棋基准中,Gemini 3 ProFlash 两款模型继续保持领先,分别在 Elo 评分和对局胜率上位列榜首。平台目前已开放 API 接口,研究者可通过统一的评测框架提交模型,获取跨游戏的综合评分报告,以便更直观地比较不同模型的通用推理能力。

标签