专题：dpo

按该标签聚合的大模型资讯列表（自动分类与标签提取）。共 3 篇文章。

中国电子战AI模型、LLM创伤反应与网络攻击规模律研究

原文

媒体Import AI2026/03/23 20:315850

• LLM创伤反应研究

• 认知分类法评估框架

本期聚焦AI三大前沿：谷歌LLM创伤反应研究揭示模型情绪对行为的影响，DeepMind提出认知分类法革新评估框架，中国团队开发电子战AI系统验证模型训练有效性。研究强调需同步评估AI能力与心理稳定性，为安全可靠的技术发展提供新方向。

大型语言模型直接偏好优化认知框架网络安全应用 LLM训练

Nova Forge SDK：简化企业级LLM定制的统一开发工具链

原文

媒体AWS Machine Learning Blog2026/03/19 00:065860

• Nova Forge SDK统一管理LLM定制全流程

• 支持SFT、RFT、DPO、LoRA等多种微调方法

Nova Forge SDK是亚马逊推出的用于简化企业级LLM定制的开发工具包，整合了SFT、RFT、DPO、LoRA等多种微调方法，统一管理从数据准备到模型部署的全流程。它通过智能默认配置和底层服务抽象，降低技术门槛，支持在SageMaker Training Jobs上高效运行，帮助企业快速构建专有AI模型，避免灾难性遗忘与配置复杂性。

LLM定制 SFT微调直接偏好优化 LoRA Amazon SageMaker

12小时掌握大型语言模型微调技术

原文

媒体freeCodeCamp2026/03/12 00:016840

• 12小时掌握LLM微调技术

• 涵盖PEFT与对齐方法

本课程提供12小时的深度学习内容，涵盖PEFT、RLHF、DPO等关键技术，以及Unsloth、Axolotl等工具，帮助开发者高效微调大型语言模型并应用于企业级多模态场景。

PEFT RLHF 直接偏好优化 Unsloth工具多模态AI