Meta 自适应排名模型:通过请求感知推理实现 LLM 级广告推荐的高效扩展
Engineering at Meta2026/04/01 00:00机翻/自动摘要/自动分类
5 阅读
内容评分
技术含量
7/10
营销水分
5/10
摘要
Meta 推出自适应排名模型,通过请求感知路由、硬件感知模型设计和多卡服务架构,实现 LLM 级广告推荐的低延迟高效推理。该方案在 Instagram 上提升 3% 转化率、5% 点击率,并将计算成本降低约 20%。
正文
Meta 继续在人工智能推荐系统(RecSys)领域保持领先,推出了 Meta Adaptive Ranking Model(自适应排名模型),旨在将广告推荐模型的规模提升至大语言模型()级别,同时满足全球数十亿用户对亚秒级延迟和低成本的严格要求。
关键创新
-
请求感知的自适应推理
- 采用智能请求路由,根据用户情境和意图动态选择模型复杂度,避免“一刀切”推理。
- 每个请求均由最合适的模型处理,保证高质量推荐的同时维持亚秒级响应。
-
模型‑系统协同设计
- 结合硬件特性(GPU、TPU 等异构加速器)设计模型结构,实现 FP8 量化、图优化和内核调度的硬件感知优化。
- 多卡并行与跨节点调度提升硬件利用率,使参数规模可达 O(1T)。
-
重新构建的服务基础设施
- 基于多 GPU 架构的推理服务层,支持请求为中心的计算流水线。
- 引入专用的调度器和缓存层,降低模型加载和上下文切换开销。
实际效果
- 自 2025 年 Q4 在 Instagram 投放后,广告转化率提升 3%,点击率提升 5%。
- 在保持亚秒级延迟的前提下,单位请求的计算成本下降约 20%。
结论
Meta 自适应排名模型通过请求感知的推理路径、硬件感知的模型设计以及重新构建的多卡服务框架,成功解决了在实时广告推荐场景中“推理三难”(模型复杂度、计算/内存需求、低延迟)的问题,为大规模 在生产环境中的高效落地提供了可复制的方案。