专题：gpu-optimization

Google、Mistral、Cohere 与 OpenAI 本周相继发布新模型：Google 的 Gemini 3.1 Flash Live 提供 70 语言、128k 上下文的实时语音视觉代理；Mistral 的开源 Voxtral TTS 支持 9 语言、低延迟，性能媲美 ElevenLabs；Cohere 的 Transcribe 在 14 语言上…

文本转语音向量量化显存优化 AI模型大语言模型

Meta开源RCCLX：AMD平台GPU通信技术新突破

原文

官方Engineering at Meta2026/02/25 05:306850

• RCCLX开源，优化AMD GPU通信

• DDA提升预填充和解码性能

Meta开源RCCLX，优化AMD平台GPU通信性能。引入DDA和低精度集体通信技术，显著提升预填充和解码阶段效率，并支持FP32和BF16数据类型。适用于单节点部署，与Torchcomms集成，便于开发者迁移。

直接数据访问低精度通信显存优化 RCCLX 直接数据访问

LM Studio 批量自动化工具：告别 GPU 崩溃，优化模型测试流程

原文

社区Reddit r/LocalLLaMA2026/02/23 20:413760

一位初学者开发者为 LM Studio 开发了开源批量自动化工具，解决了在低配硬件上进行模型测试时手动操作繁琐及 GPU 内存溢出（OOM）的问题。该工具通过强制释放内存避免崩溃，并集成了模型大小显示、思考过程过滤、多模态输入格式优化等功能。工具已编译为跨平台可执行文件，方便用户直接使用，旨在提升模型测试效率。

LM Studio 大模型自动化显存优化开源项目

基于令牌计数的分批处理：提升嵌入模型推理效率的实战方案

原文

官方MongoDB Blog2025/12/18 23:004850

本文提出基于令牌计数的分批处理方法，用于优化嵌入模型的查询推理效率。通过填充移除技术，将短查询合并为超级序列，减少内存浪费和计算延迟。实验表明，该方法在降低GPU推理延迟、提升吞吐量和资源利用率方面效果显著，尤其适用于高突发性流量场景。

基于令牌的批处理嵌入模型显存优化大模型推理注意力掩码