专题：asr

按该标签聚合的大模型资讯列表（自动分类与标签提取）。共 4 篇文章。

Google、Mistral、Cohere 与 OpenAI 连发多模态与语音模型，突破上下文与多语言能力

媒体AINews2026/03/24 13:445750

• Google 发布 Gemini 3.1 Flash Live，128k 上下文、70 语言

• Mistral 推 Voxtral TTS，开源低延迟，支持 9 语言

Google、Mistral、Cohere 与 OpenAI 本周相继发布新模型：Google 的 Gemini 3.1 Flash Live 提供 70 语言、128k 上下文的实时语音视觉代理；Mistral 的开源 Voxtral TTS 支持 9 语言、低延迟，性能媲美 ElevenLabs；Cohere 的 Transcribe 在 14 语言上…

文本转语音向量量化显存优化 AI模型大型语言模型

NVIDIA Nemotron Speech ASR模型在AWS上的领域微调实践

原文

媒体AWS Machine Learning Blog2026/03/12 23:577940

• 微调NVIDIA ASR模型以适应医疗领域

• 结合AWS与开源工具构建ASR系统

本文介绍如何在AWS上微调NVIDIA Parakeet TDT 0.6B V2 ASR模型，以适应医疗等特定领域。通过合成数据和开源工具，构建端到端系统，提升模型在医学术语、口音和噪声环境下的识别性能，并实现高效部署。

NVIDIA Parakeet模型自动语音识别模型微调 AWS DeepSpeed

Qwen3-ASR模型MLX重实现：Apple Silicon原生ASR性能新突破

原文

社区Reddit r/LocalLLaMA2026/02/15 13:193850

Qwen3-ASR模型现已通过MLX平台在Apple Silicon上实现原生运行，为M系列GPU带来了高性能的自动语音识别能力。该重实现提供了0.6B和1.7B两种模型规模，支持52种语言，并具备词级时间戳、4位/8位量化、流式解码等高级特性。性能测试显示，其在M4 Pro上识别速度快，错误率低，且内存占用高效。这一进展为Apple生态系统中的AI应用开…

Apple Silicon MLX技术自动语音识别 Qwen 3 量化技术

PazaBench：面向低资源语言的自动语音识别基准与模型发布

原文

官方Microsoft Research Blog2026/02/05 13:077960

• PazaBench评估低资源非洲语言ASR模型

• Paza模型基于Phi-4、mms-1b-all和Whisper

微软发布PazaBench，首个针对低资源非洲语言的ASR基准，涵盖39种语言和52个模型。Paza系列模型基于Phi-4、mms-1b-all和Whisper，针对肯尼亚六种语言进行微调，提升转录质量与跨语言泛化能力。通过实地测试和社区反馈，推动AI在未充分代表语言中的应用。

模型调优以用户为中心设计自动语音识别低资源语言社区测试