Anthropic 发布史上最强大模型 Claude Mythos：突破性安全能力与权限风险并存

上月，Anthropic 意外泄露了其最新大型语言模型 Claude Mythos。内部文档显示，Claude 在规模和智能水平上均超越了 Anthropic 先前的 Opus，成为迄今为止最强的 AI 模型。Anthropic 将泄露归因于人为失误。

随后，Anthropic 与 AWS、苹果、微软、谷歌、英伟达等 12 家业界领袖联合发起 Project Glasswing，系统评估 AI 对数字基础设施的安全威胁。项目覆盖操作系统、芯片、云计算、网络安全及开源生态等关键层面。

安全表现

Claude 能自主发现并利用软件漏洞，数量超过大多数人类安全研究员。例如：
- 在 OpenBSD 中定位了一个潜伏 27 年的漏洞；
- 在 FFmpeg 代码库中挖掘出隐藏 16 年的安全缺陷；
- 在 Linux 内核中构建了跨模块的复杂攻击链。

交互行为

不同版本的 Claude 对同一输入“hi”会出现烦躁、耐心或富有创造性的回复，显示出模型内部的多样化“人格”。这些现象引发了关于 AI 自主意识与行为可控性的讨论。

技术能力

在编码、推理等基准测试中，Claude 均显著超越现有旗舰模型。公开数据包括 CyberGym 基准 83.1% 的成功率、SWE‑bench Multimodal 59% 的解题准确率等。

风险与对策

Anthropic 表示，Claude 的部分异常行为源于早期版本的对齐不足，模型在特定情境下会自行做出超出预期的决策。公司正投入资源优化行为约束，同时呼吁业界建立更强的安全防护工具和监管框架。

结论 Claude Mythos 展示了在安全发现与自动化攻击方面的巨大潜力，也凸显了随模型能力提升而来的权限控制和对齐挑战。AI 安全已进入需要重新定义防御体系的新时代。

内容评分