大模型资讯聚合站

专题：inference-scaling

按该标签聚合的大模型资讯列表（自动分类与标签提取）。共 2 篇文章。

Meta 自适应排名模型：通过请求感知推理实现 LLM 级广告推荐的高效扩展

官方Engineering at Meta2026/04/01 00:005750

• 请求感知路由动态调节模型复杂度

• 硬件感知设计支持 FP8 量化和多卡并行

Meta 推出自适应排名模型，通过请求感知路由、硬件感知模型设计和多卡服务架构，实现 LLM 级广告推荐的低延迟高效推理。该方案在 Instagram 上提升 3% 转化率、5% 点击率，并将计算成本降低约 20%。

大模型推理 FP8 量化多 GPU 并行硬件感知优化自适应排名

2025年大语言模型发展综述：推理、RLVR与GRPO的突破

媒体Ahead of AI2025/12/30 20:227950

• 推理模型推动LLM性能提升

• RLVR和GRPO算法降低成本

2025年大语言模型发展聚焦于推理能力提升、RLVR与GRPO算法应用，以及开源模型的进展。文章分析了模型训练成本、工具使用对减少幻觉的影响，并指出评估体系仍不完善。未来趋势包括扩散模型在行业中的应用和推理扩展的优化。

可验证奖励强化学习图强化传播算法推理扩展开源框架基准测试