首页/详情

Claude Code 性能回退与模型深度争议:大厂 AI 主管的批评与技术剖析

InfoQ 中文2026/04/09 00:13机翻/自动摘要/自动分类
4 阅读

内容评分

技术含量
7/10
营销水分
4/10

摘要

Claude Code 在最新迭代中出现性能回退,引发开发者不满。文章分析了准确率下降的技术原因,包括数据稀释、参数分配和采样策略变化,并引用前谷歌 AI 主管的批评,指出模型在追求规模时牺牲了思考深度。Anthropic 官方回应称安全性是本次权衡重点,并计划在后续版本中恢复代码专用微调。文末提供了使用建议和后处理技巧,为开发者提供实用指引。

正文

近日,Anthropic 推出的 Claude Code 在发布后不久即遭遇性能回退的指责。开发者社区反馈,最新版本在代码生成的准确率、上下文保持以及多语言支持方面均出现明显下降。针对这一现象,前谷歌 AI 主管兼前 OpenAI 高管 John Kelley 在社交媒体上公开批评,认为模型在追求“更大规模”时忽视了“思考深度”和“可解释性”。

文章首先回顾了 Claude Code 的技术路线:基于 Anthropic 的 Claude 2 系列,采用混合式和专门的代码数据集。随后,对比了 1.0、1.1 与最新 1.2 版本的公开基准(HumanEval、MBPP),展示了准确率从 71% 下降至约 58% 的趋势。作者指出,性能下降的主要原因可能包括:

  1. 数据稀释:在扩大通用语言数据时,代码专用数据比例被削减;
  2. 模型容量分配:新增的 64‑B 参数被用于提升对话安全性,导致代码子模型的参数占比下降;
  3. 采样策略调整:从 Top‑p 0.95 改为 Top‑p 0.9,降低了生成的多样性,进而影响了复杂代码的完整性。

针对批评,Anthropic 官方回应称,近期的迭代重点在于提升模型的安全性和对抗性防御,代码能力的回退是“可接受的权衡”。他们计划在下一个里程碑中重新引入更大比例的代码数据,并提供可选的“代码专用”模型入口。

文章最后给出几条对开发者的建议:

  • 在关键项目中使用 Claude Code 时,开启 temperature=0 并使用 few‑shot 示例 以提升稳定性;
  • 关注 Anthropic 的 Beta API,其中将提供专门的代码模型版本;
  • 结合开源工具(如 Tree‑Sitter)进行后处理,以捕获潜在的语法错误。

整体来看,此次争议揭示了在多任务扩展时的“深度‑广度”取舍问题,也为业界提供了关于模型迭代策略的思考参考。

标签