Anthropic 年收入突破 300 亿美元,并推出高性能模型 Claude Mythos 与安全项目 GlassWing。Claude Mythos 具备更强推理和多模态能力,但因安全风险采用受限发布,仅向可信合作伙伴开放。GlassWing 提供实时监控与风险评估,结合 RLHF 与对抗训练降低有害输出。技术上,模型使用约 1800 亿参数的混合稀疏…
专题:rlhf
按该标签聚合的大模型资讯列表(自动分类与标签提取)。共 8 篇文章。
DeepSeek大规模招聘Agent相关人才,涵盖算法、数据、基础设施等方向,强调AI编程工具使用和产品化落地,布局完整技术闭环,显示其在Agent赛道的深度投入。
本课程提供12小时的深度学习内容,涵盖PEFT、RLHF、DPO等关键技术,以及Unsloth、Axolotl等工具,帮助开发者高效微调大型语言模型并应用于企业级多模态场景。
文章探讨了LLM在对抗性环境中的局限性,指出其仅是词汇模型,而专家具备世界模型。通过对比完美与不完美信息游戏,强调LLM在多智能体互动中的不足,并以Pluribus模型为例,批评RLHF训练方式的缺陷。对AI研究者具有重要参考价值。
文章深入探讨AI检测工具的局限性,指出其无法“证明”文本由AI生成。核心原因在于大型语言模型从人类文本学习,不具备独特“AI风格”。尽管当前模型因RLHF可能呈现相似风格,但检测工具误判率高,尤其在低AI文本比例下。文章还揭露了“人性化”工具的讽刺,并强调AI检测工具本身依赖AI。最终,建议对检测结果持怀疑态度,将其视为猜测而非确凿证据。
本文测试了 Claude Haiku 4.5 对越狱提示的反应,发现其拒绝生成不当内容,并基于真实价值观而非规则。通过对比其他模型,展示了 LLM 在安全机制和对抗性攻击上的差异,具有较高的技术参考价值。
本文指出当前LLM聊天机器人在多轮对话中缺乏目标感,提出‘有目的对话’概念,并分析现有系统在任务一致性上的不足。作者团队提出DAT算法,旨在提升LLM在目标导向对话中的表现,同时强调了强化学习与隐藏奖励信号的应用价值。
本文探讨AI对齐研究的动机与技术方法,指出其在商业利益驱动下偏向产品开发,而非解决长期风险。分析了RLHF和RLAIF等技术的实际应用与局限性,强调AI发展应服务于人类福祉,而非仅满足市场需求。