大模型资讯聚合站

首页/详情

Meta 自适应排名模型：通过请求感知推理实现 LLM 级广告推荐的高效扩展

Engineering at Meta2026/04/01 00:00机翻/自动摘要/自动分类

5 阅读

内容评分

技术含量

7/10

营销水分

5/10

摘要

Meta 推出自适应排名模型，通过请求感知路由、硬件感知模型设计和多卡服务架构，实现 LLM 级广告推荐的低延迟高效推理。该方案在 Instagram 上提升 3% 转化率、5% 点击率，并将计算成本降低约 20%。

正文

Meta 继续在人工智能推荐系统（RecSys）领域保持领先，推出了 Meta Adaptive Ranking Model（自适应排名模型），旨在将广告推荐模型的规模提升至大语言模型（）级别，同时满足全球数十亿用户对亚秒级延迟和低成本的严格要求。

关键创新

请求感知的自适应推理
- 采用智能请求路由，根据用户情境和意图动态选择模型复杂度，避免“一刀切”推理。
- 每个请求均由最合适的模型处理，保证高质量推荐的同时维持亚秒级响应。
模型‑系统协同设计
- 结合硬件特性（GPU、TPU 等异构加速器）设计模型结构，实现 FP8 量化、图优化和内核调度的硬件感知优化。
- 多卡并行与跨节点调度提升硬件利用率，使参数规模可达 O(1T)。
重新构建的服务基础设施
- 基于多 GPU 架构的推理服务层，支持请求为中心的计算流水线。
- 引入专用的调度器和缓存层，降低模型加载和上下文切换开销。

实际效果

自 2025 年 Q4 在 Instagram 投放后，广告转化率提升 3%，点击率提升 5%。
在保持亚秒级延迟的前提下，单位请求的计算成本下降约 20%。

结论

Meta 自适应排名模型通过请求感知的推理路径、硬件感知的模型设计以及重新构建的多卡服务框架，成功解决了在实时广告推荐场景中“推理三难”（模型复杂度、计算/内存需求、低延迟）的问题，为大规模在生产环境中的高效落地提供了可复制的方案。