专题:gpu-optimization

按该标签聚合的大模型资讯列表(自动分类与标签提取)。6 篇文章。

社区Hacker News2026/04/08 20:195640
单GPU训练超百亿参数LLM
全精度训练效率提升

MegaTrain是突破性训练框架,可在单GPU上完成超百亿参数LLM的全精度训练。通过算法优化和流程重构,降低硬件需求并提升效率,为资源有限环境提供高性能模型训练方案。核心亮点包括单设备训练能力、全精度保持与资源效率提升,对AI模型研发具有重要实践价值。

官方Engineering at Meta2026/04/01 00:005750
请求感知路由动态调节模型复杂度
硬件感知设计支持 FP8 量化和多卡并行

Meta 推出自适应排名模型,通过请求感知路由、硬件感知模型设计和多卡服务架构,实现 LLM 级广告推荐的低延迟高效推理。该方案在 Instagram 上提升 3% 转化率、5% 点击率,并将计算成本降低约 20%。

媒体AINews2026/03/24 13:445750
Google 发布 Gemini 3.1 Flash Live,128k 上下文、70 语言
Mistral 推 Voxtral TTS,开源低延迟,支持 9 语言

Google、Mistral、Cohere 与 OpenAI 本周相继发布新模型:Google 的 Gemini 3.1 Flash Live 提供 70 语言、128k 上下文的实时语音视觉代理;Mistral 的开源 Voxtral TTS 支持 9 语言、低延迟,性能媲美 ElevenLabs;Cohere 的 Transcribe 在 14 语言上…

社区Reddit r/LocalLLaMA2026/02/23 20:413760

一位初学者开发者为 LM Studio 开发了开源批量自动化工具,解决了在低配硬件上进行模型测试时手动操作繁琐及 GPU 内存溢出(OOM)的问题。该工具通过强制释放内存避免崩溃,并集成了模型大小显示、思考过程过滤、多模态输入格式优化等功能。工具已编译为跨平台可执行文件,方便用户直接使用,旨在提升模型测试效率。

官方MongoDB Blog2025/12/18 23:004850

本文提出基于令牌计数的分批处理方法,用于优化嵌入模型的查询推理效率。通过填充移除技术,将短查询合并为超级序列,减少内存浪费和计算延迟。实验表明,该方法在降低GPU推理延迟、提升吞吐量和资源利用率方面效果显著,尤其适用于高突发性流量场景。