专题:rlhf

按该标签聚合的大模型资讯列表(自动分类与标签提取)。8 篇文章。

媒体AINews2026/04/07 13:444830
Anthropic 年收入超 300 亿美元
发布高性能模型 Claude Mythos,采用受限发布

Anthropic 年收入突破 300 亿美元,并推出高性能模型 Claude Mythos 与安全项目 GlassWing。Claude Mythos 具备更强推理和多模态能力,但因安全风险采用受限发布,仅向可信合作伙伴开放。GlassWing 提供实时监控与风险评估,结合 RLHF 与对抗训练降低有害输出。技术上,模型使用约 1800 亿参数的混合稀疏…

媒体Sean Goedecke2025/12/05 08:002850

文章深入探讨AI检测工具的局限性,指出其无法“证明”文本由AI生成。核心原因在于大型语言模型从人类文本学习,不具备独特“AI风格”。尽管当前模型因RLHF可能呈现相似风格,但检测工具误判率高,尤其在低AI文本比例下。文章还揭露了“人性化”工具的讽刺,并强调AI检测工具本身依赖AI。最终,建议对检测结果持怀疑态度,将其视为猜测而非确凿证据。