专题:reward-function

按该标签聚合的大模型资讯列表(自动分类与标签提取)。2 篇文章。

媒体AWS Machine Learning Blog2026/04/09 03:436830
RFT 通过奖励信号优化模型
无需依赖大规模标注数据

本文详解 Amazon Bedrock 平台的强化微调(RFT)技术,通过奖励信号优化模型性能,无需依赖大规模标注数据集即可提升准确率最高达 66%。重点涵盖数据集设计、奖励函数策略及超参数调整,适用于代码生成、数学推理等可验证任务及需 AI 反馈的主观任务,结合 GSM8K 数据集案例展示实际应用效果。