专题:asr

按该标签聚合的大模型资讯列表(自动分类与标签提取)。4 篇文章。

媒体AINews2026/03/24 13:445750
Google 发布 Gemini 3.1 Flash Live,128k 上下文、70 语言
Mistral 推 Voxtral TTS,开源低延迟,支持 9 语言

Google、Mistral、Cohere 与 OpenAI 本周相继发布新模型:Google 的 Gemini 3.1 Flash Live 提供 70 语言、128k 上下文的实时语音视觉代理;Mistral 的开源 Voxtral TTS 支持 9 语言、低延迟,性能媲美 ElevenLabs;Cohere 的 Transcribe 在 14 语言上…

媒体AWS Machine Learning Blog2026/03/12 23:577940
微调NVIDIA ASR模型以适应医疗领域
结合AWS与开源工具构建ASR系统

本文介绍如何在AWS上微调NVIDIA Parakeet TDT 0.6B V2 ASR模型,以适应医疗等特定领域。通过合成数据和开源工具,构建端到端系统,提升模型在医学术语、口音和噪声环境下的识别性能,并实现高效部署。

社区Reddit r/LocalLLaMA2026/02/15 13:193850

Qwen3-ASR模型现已通过MLX平台在Apple Silicon上实现原生运行,为M系列GPU带来了高性能的自动语音识别能力。该重实现提供了0.6B和1.7B两种模型规模,支持52种语言,并具备词级时间戳、4位/8位量化、流式解码等高级特性。性能测试显示,其在M4 Pro上识别速度快,错误率低,且内存占用高效。这一进展为Apple生态系统中的AI应用开…

官方Microsoft Research Blog2026/02/05 13:077960
PazaBench评估低资源非洲语言ASR模型
Paza模型基于Phi-4、mms-1b-all和Whisper

微软发布PazaBench,首个针对低资源非洲语言的ASR基准,涵盖39种语言和52个模型。Paza系列模型基于Phi-4、mms-1b-all和Whisper,针对肯尼亚六种语言进行微调,提升转录质量与跨语言泛化能力。通过实地测试和社区反馈,推动AI在未充分代表语言中的应用。