Meta 自适应排名模型:通过请求感知推理实现 LLM 级广告推荐的高效扩展原文官方Engineering at Meta2026/04/01 00:005750• 请求感知路由动态调节模型复杂度• 硬件感知设计支持 FP8 量化和多卡并行Meta 推出自适应排名模型,通过请求感知路由、硬件感知模型设计和多卡服务架构,实现 LLM 级广告推荐的低延迟高效推理。该方案在 Instagram 上提升 3% 转化率、5% 点击率,并将计算成本降低约 20%。大模型推理FP8 量化多 GPU 并行硬件感知优化自适应排名