专题:multi-gpu-architecture

按该标签聚合的大模型资讯列表(自动分类与标签提取)。1 篇文章。

官方Engineering at Meta2026/04/01 00:005750
请求感知路由动态调节模型复杂度
硬件感知设计支持 FP8 量化和多卡并行

Meta 推出自适应排名模型,通过请求感知路由、硬件感知模型设计和多卡服务架构,实现 LLM 级广告推荐的低延迟高效推理。该方案在 Instagram 上提升 3% 转化率、5% 点击率,并将计算成本降低约 20%。