专题：grpo

按该标签聚合的大模型资讯列表（自动分类与标签提取）。共 4 篇文章。

Amazon SageMaker AI无服务器模型定制优化Qwen 2.5 7B Instruct工具调用能力

媒体AWS Machine Learning Blog2026/04/07 01:546820

• RLVR技术优化工具调用

• 57%准确率提升

本文展示如何通过Amazon SageMaker AI的RLVR技术优化Qwen 2.5 7B Instruct模型的工具调用能力。利用无服务器定制功能，结合合成数据训练和奖励函数设计，使模型在未见过的场景中准确率提升57%。核心亮点包括自动化基础设施管理、组相对策略优化（GRPO）机制及跨场景泛化能力，为智能代理的生产部署提供可靠解决方案。

可验证奖励强化学习模型微调工具调用格式图强化传播算法 Amazon SageMaker

Amazon Bedrock 强化微调技术详解与实践指南

原文

媒体AWS Machine Learning Blog2026/03/26 01:307970

• Amazon Bedrock支持RFT训练，无需端点配置

• 使用OpenAI API进行模型强化微调

Amazon Bedrock推出强化微调功能，支持OpenAI兼容API，简化LLM训练流程。通过奖励函数和自动化训练，开发者可高效定制模型，适用于数学推理等任务。文章提供完整代码示例和监控方法，适合开发者和研究人员参考。

图强化传播算法 OpenAI SDK 强化微调 OpenAI兼容API GRPO优化算法

微调开源 120B 模型，Brier 分数击败 GPT‑5：特朗普行为预测实证

原文

社区Reddit r/LocalLLaMA2026/02/12 21:2840

研究者使用 GRPO 与 LoRA 对开源 120B 模型 gpt‑oss‑120b 进行微调，针对 2025 年特朗普行为的 2,790 条二元预测题进行训练。模型在 682 条留出测试集上取得 Brier Score 0.194、ECE 0.079，分别优于基线模型和 GPT‑5（0.200、0.091），并在带/不带上下文两种情形下均表现更佳。实验细…

微调图强化传播算法 LoRA Brier 分数模型校准

2025年大语言模型发展综述：推理、RLVR与GRPO的突破

原文

媒体Ahead of AI2025/12/30 20:227950

• 推理模型推动LLM性能提升

• RLVR和GRPO算法降低成本

2025年大语言模型发展聚焦于推理能力提升、RLVR与GRPO算法应用，以及开源模型的进展。文章分析了模型训练成本、工具使用对减少幻觉的影响，并指出评估体系仍不完善。未来趋势包括扩散模型在行业中的应用和推理扩展的优化。

可验证奖励强化学习图强化传播算法推理扩展开源框架基准测试