Claude Code 性能回退与模型深度争议：大厂 AI 主管的批评与技术剖析

近日，Anthropic 推出的 Claude Code 在发布后不久即遭遇性能回退的指责。开发者社区反馈，最新版本在代码生成的准确率、上下文保持以及多语言支持方面均出现明显下降。针对这一现象，前谷歌 AI 主管兼前 OpenAI 高管 John Kelley 在社交媒体上公开批评，认为模型在追求“更大规模”时忽视了“思考深度”和“可解释性”。

文章首先回顾了 Claude Code 的技术路线：基于 Anthropic 的 Claude 2 系列，采用混合式和专门的代码数据集。随后，对比了 1.0、1.1 与最新 1.2 版本的公开基准（HumanEval、MBPP），展示了准确率从 71% 下降至约 58% 的趋势。作者指出，性能下降的主要原因可能包括：

数据稀释：在扩大通用语言数据时，代码专用数据比例被削减；
模型容量分配：新增的 64‑B 参数被用于提升对话安全性，导致代码子模型的参数占比下降；
采样策略调整：从 Top‑p 0.95 改为 Top‑p 0.9，降低了生成的多样性，进而影响了复杂代码的完整性。

针对批评，Anthropic 官方回应称，近期的迭代重点在于提升模型的安全性和对抗性防御，代码能力的回退是“可接受的权衡”。他们计划在下一个里程碑中重新引入更大比例的代码数据，并提供可选的“代码专用”模型入口。

文章最后给出几条对开发者的建议：

在关键项目中使用 Claude Code 时，开启 temperature=0 并使用 few‑shot 示例 以提升稳定性；
关注 Anthropic 的 Beta API，其中将提供专门的代码模型版本；
结合开源工具（如 Tree‑Sitter）进行后处理，以捕获潜在的语法错误。

整体来看，此次争议揭示了在多任务扩展时的“深度‑广度”取舍问题，也为业界提供了关于模型迭代策略的思考参考。

Claude Code 性能回退与模型深度争议：大厂 AI 主管的批评与技术剖析

内容评分

摘要

正文

标签

Claude Code 性能回退与模型深度争议：大厂 AI 主管的批评与技术剖析

内容评分

摘要

正文

标签

Claude Code 性能回退与模型深度争议：大厂 AI 主管的批评与技术剖析