大模型资讯聚合站

专题：reinforcement-fine-tuning

按该标签聚合的大模型资讯列表（自动分类与标签提取）。共 4 篇文章。

Amazon Bedrock 强化微调（RFT）：高效定制模型的实践方法

媒体AWS Machine Learning Blog2026/04/09 03:436830

• RFT 通过奖励信号优化模型

• 无需依赖大规模标注数据

本文详解 Amazon Bedrock 平台的强化微调（RFT）技术，通过奖励信号优化模型性能，无需依赖大规模标注数据集即可提升准确率最高达 66%。重点涵盖数据集设计、奖励函数策略及超参数调整，适用于代码生成、数学推理等可验证任务及需 AI 反馈的主观任务，结合 GSM8K 数据集案例展示实际应用效果。

强化微调 Amazon Bedrock 奖励函数模型优化开源模型

Amazon Bedrock 强化微调技术详解与实践指南

媒体AWS Machine Learning Blog2026/03/26 01:307970

• Amazon Bedrock支持RFT训练，无需端点配置

• 使用OpenAI API进行模型强化微调

Amazon Bedrock推出强化微调功能，支持OpenAI兼容API，简化LLM训练流程。通过奖励函数和自动化训练，开发者可高效定制模型，适用于数学推理等任务。文章提供完整代码示例和监控方法，适合开发者和研究人员参考。

图强化传播算法 OpenAI SDK 强化微调 OpenAI兼容API GRPO优化算法

Nova Forge SDK 实战：从基线到强化微调的模型定制全流程

媒体AWS Machine Learning Blog2026/03/19 00:166850

• Nova Forge SDK 实现模型定制流程

• SFT 和 RFT 提升分类准确率

本文介绍 Amazon Nova Forge SDK 的使用，展示如何通过监督微调和强化微调提升 Stack Overflow 问题分类模型的性能。核心亮点包括全流程训练、评估与部署，以及对模型行为的深入分析。

SageMaker Nova Forge SDK 监督微调强化微调 Amazon SageMaker

AWS与NVIDIA深化AI合作，推动生产级AI部署

官方AWS Machine Learning Blog2026/03/17 04:517840

• AWS部署百万级NVIDIA GPU

• EC2支持新型Blackwell GPU

AWS与NVIDIA在2026年GTC大会上深化AI合作，部署百万级GPU、支持新型EC2实例、优化分布式LLM推理及提升Apache Spark性能。此举旨在帮助企业构建稳定、可扩展且合规的AI生产系统，为开发者和研究人员提供更强大的工具。

NVIDIA Blackwell架构 AWS弹性纤维适配器 NIXL 通信库 Nemotron模型强化微调