专题：low-latency

按该标签聚合的大模型资讯列表（自动分类与标签提取）。共 3 篇文章。

Meta 自适应排名模型：通过请求感知推理实现 LLM 级广告推荐的高效扩展

原文

官方Engineering at Meta2026/04/01 00:005750

• 请求感知路由动态调节模型复杂度

• 硬件感知设计支持 FP8 量化和多卡并行

Meta 推出自适应排名模型，通过请求感知路由、硬件感知模型设计和多卡服务架构，实现 LLM 级广告推荐的低延迟高效推理。该方案在 Instagram 上提升 3% 转化率、5% 点击率，并将计算成本降低约 20%。

大模型推理 FP8 量化多 GPU 并行硬件感知优化自适应排名

Microsoft Foundry 集成 Fireworks AI：开放模型高性能推理新方案

原文

官方Microsoft Azure Blog2026/03/11 15:008940

• Fireworks AI集成Microsoft Foundry

• 支持多模型推理与部署选项

Microsoft Foundry 集成 Fireworks AI，为企业提供统一的开放模型推理平台。该方案支持多款主流模型，包含无服务器部署和 PTU 计费模式，日处理能力达 13 万亿 tokens，每秒处理 18 万请求。核心亮点在于打通模型全生命周期管理，通过 BYOW 功能实现自定义权重部署，解决传统方案中工具碎片化导致的扩展难题，助力开发者高效…

模型部署模型优化 Azure AI平台微软Foundry Fireworks AI

用微调 0.6B 小模型替代云端 LLM，显著降低语音助手延迟

原文

社区Reddit r/LocalLLaMA2026/02/20 22:375830

VoiceTeller 将传统语音助手中云端的 120 B LLM 替换为本地微调的 0.6 B 小模型 Qwen3，单轮任务准确率提升至 90.9%，核心推理时延从 375‑750 ms 降至约 40 ms，总交互延迟从 680‑1300 ms 缩减至约 315 ms，实现了 1/200 参数量的高效、低延迟本地化方案，并全部开源。

小语言模型模型微调语音助手低延迟模型压缩