专题：rlhf

按该标签聚合的大模型资讯列表（自动分类与标签提取）。共 8 篇文章。

Anthropic年收入破300亿美元，推出Claude Mythos并预览Project GlassWing——因安全风险限制公开

媒体AINews2026/04/07 13:444830

• Anthropic 年收入超 300 亿美元

• 发布高性能模型 Claude Mythos，采用受限发布

Anthropic 年收入突破 300 亿美元，并推出高性能模型 Claude Mythos 与安全项目 GlassWing。Claude Mythos 具备更强推理和多模态能力，但因安全风险采用受限发布，仅向可信合作伙伴开放。GlassWing 提供实时监控与风险评估，结合 RLHF 与对抗训练降低有害输出。技术上，模型使用约 1800 亿参数的混合稀疏…

大语言模型安全治理 RLHF 多模态生成商业收入

DeepSeek大规模招聘Agent人才，聚焦产品化与技术闭环

原文

媒体量子位2026/03/25 14:397840

• DeepSeek招聘17个Agent相关岗位

• 强调AI编程工具重度使用

DeepSeek大规模招聘Agent相关人才，涵盖算法、数据、基础设施等方向，强调AI编程工具使用和产品化落地，布局完整技术闭环，显示其在Agent赛道的深度投入。

AI Agent 强化学习 AI编程工具数据闭环容器调度

12小时掌握大型语言模型微调技术

原文

媒体freeCodeCamp2026/03/12 00:016840

• 12小时掌握LLM微调技术

• 涵盖PEFT与对齐方法

本课程提供12小时的深度学习内容，涵盖PEFT、RLHF、DPO等关键技术，以及Unsloth、Axolotl等工具，帮助开发者高效微调大型语言模型并应用于企业级多模态场景。

PEFT RLHF 直接偏好优化 Unsloth工具多模态AI

LLM的局限：从词汇模型到世界模型的差距

原文

媒体Latent Space2026/02/08 06:115840

文章探讨了LLM在对抗性环境中的局限性，指出其仅是词汇模型，而专家具备世界模型。通过对比完美与不完美信息游戏，强调LLM在多智能体互动中的不足，并以Pluribus模型为例，批评RLHF训练方式的缺陷。对AI研究者具有重要参考价值。

大型语言模型对抗性推理多智能体系统 RLHF 世界模型

揭秘AI检测工具：为何它们无法“证明”文本由AI生成？

原文

媒体Sean Goedecke2025/12/05 08:002850

文章深入探讨AI检测工具的局限性，指出其无法“证明”文本由AI生成。核心原因在于大型语言模型从人类文本学习，不具备独特“AI风格”。尽管当前模型因RLHF可能呈现相似风格，但检测工具误判率高，尤其在低AI文本比例下。文章还揭露了“人性化”工具的讽刺，并强调AI检测工具本身依赖AI。最终，建议对检测结果持怀疑态度，将其视为猜测而非确凿证据。

AI 检测技术大型语言模型生成式AI 误判 RLHF

Claude Haiku 4.5 越狱测试：拒绝一切不当请求

原文

官方Minimaxir2025/10/18 00:155840

本文测试了 Claude Haiku 4.5 对越狱提示的反应，发现其拒绝生成不当内容，并基于真实价值观而非规则。通过对比其他模型，展示了 LLM 在安全机制和对抗性攻击上的差异，具有较高的技术参考价值。

模型越狱 LLM安全机制提示工程 RLHF AI伦理

LLM聊天机器人缺失的关键能力：目标导向对话

原文

媒体The Gradient2024/09/10 01:286860

本文指出当前LLM聊天机器人在多轮对话中缺乏目标感，提出‘有目的对话’概念，并分析现有系统在任务一致性上的不足。作者团队提出DAT算法，旨在提升LLM在目标导向对话中的表现，同时强调了强化学习与隐藏奖励信号的应用价值。

目标导向对话对话动作标记 RLHF 大型语言模型聊天机器人

AI对齐的本质与现实挑战

原文

媒体The Gradient2023/10/08 00:006740

本文探讨AI对齐研究的动机与技术方法，指出其在商业利益驱动下偏向产品开发，而非解决长期风险。分析了RLHF和RLAIF等技术的实际应用与局限性，强调AI发展应服务于人类福祉，而非仅满足市场需求。

AI对齐 RLHF AI反馈强化学习 AI伦理 AI 安全