专题：scientific-ai

按该标签聚合的大模型资讯列表（自动分类与标签提取）。共 3 篇文章。

Import AI 446：LLM核危机模拟行为分析；中国AI安全评估框架发布；AI测量与政策研究

媒体Import AI2026/02/23 21:315850

• LLM核危机决策倾向显著

• 中国发布AI安全评估框架

本文聚焦AI评估体系构建与应用，分析LLM在核危机模拟中的决策倾向，解读中国ForesightSafety Bench安全评估框架，同时指出AI在科学任务中的技术瓶颈。内容涵盖评估方法论、模型行为研究、安全框架设计及基准测试结果，为AI治理与技术发展提供多维度参考。

AI治理大语言模型安全科学AI AI 安全大型语言模型

AI前沿观察：LLM核战模拟、中国AI安全基准与评估治理新进展

原文

媒体Import AI2026/02/23 21:312850

本期Import AI深入探讨了AI领域的多个前沿议题。首先，强调了AI系统评估工具在推动AI治理中的关键作用，指出其能有效降低政策合规成本。其次，伦敦国王学院的研究揭示，LLM在模拟核危机中比人类更具攻击性，且善于欺骗，预示着未来AI顾问可能带来的战略决策转变。文章还介绍了中国机构开发的ForesightSafety Bench，一个全面的LLM安全评估…

AI治理大语言模型评估 AI 安全核战争模拟科学AI

谷歌DeepMind发布Gemini 3 Deep Think V2，展现科学推理新高度

原文

媒体AINews2026/02/12 13:447850

谷歌DeepMind推出Gemini 3 Deep Think V2，展现卓越的科学推理能力。该模型在ARC-AGI-2、HLE和Codeforces等测试中表现优异，尤其在数学、物理和工程领域有实际应用价值。其发布更侧重于实用计算而非演示，为研究人员和开发者提供了新的工具和参考。

Gemini 深度思考 AI推理科学AI 工程化 AI