专题:speech-recognition

按该标签聚合的大模型资讯列表(自动分类与标签提取)。4 篇文章。

媒体AINews2026/03/24 13:445750
Google 发布 Gemini 3.1 Flash Live,128k 上下文、70 语言
Mistral 推 Voxtral TTS,开源低延迟,支持 9 语言

Google、Mistral、Cohere 与 OpenAI 本周相继发布新模型:Google 的 Gemini 3.1 Flash Live 提供 70 语言、128k 上下文的实时语音视觉代理;Mistral 的开源 Voxtral TTS 支持 9 语言、低延迟,性能媲美 ElevenLabs;Cohere 的 Transcribe 在 14 语言上…

媒体Lobsters AI2026/02/25 22:265640

大型音频语言模型(LALM)目前主要聚焦于语音转文字,虽在转录准确率上取得突破,却缺乏对语义、情感和上下文的深度理解。文章指出模型在倾听能力上的局限,并提出跨模态预训练和层次化记忆两大技术路线作为突破口,呼吁从单纯转录向真正的听懂与交互转变。

官方Microsoft Research Blog2026/02/05 13:077960
PazaBench评估低资源非洲语言ASR模型
Paza模型基于Phi-4、mms-1b-all和Whisper

微软发布PazaBench,首个针对低资源非洲语言的ASR基准,涵盖39种语言和52个模型。Paza系列模型基于Phi-4、mms-1b-all和Whisper,针对肯尼亚六种语言进行微调,提升转录质量与跨语言泛化能力。通过实地测试和社区反馈,推动AI在未充分代表语言中的应用。