专题：speech-recognition

按该标签聚合的大模型资讯列表（自动分类与标签提取）。共 4 篇文章。

Google、Mistral、Cohere 与 OpenAI 连发多模态与语音模型，突破上下文与多语言能力

媒体AINews2026/03/24 13:445750

• Google 发布 Gemini 3.1 Flash Live，128k 上下文、70 语言

• Mistral 推 Voxtral TTS，开源低延迟，支持 9 语言

Google、Mistral、Cohere 与 OpenAI 本周相继发布新模型：Google 的 Gemini 3.1 Flash Live 提供 70 语言、128k 上下文的实时语音视觉代理；Mistral 的开源 Voxtral TTS 支持 9 语言、低延迟，性能媲美 ElevenLabs；Cohere 的 Transcribe 在 14 语言上…

文本转语音向量量化显存优化 AI模型大型语言模型

大型音频语言模型仍在“转录”而非真正“倾听”——现状与挑战

原文

媒体Lobsters AI2026/02/25 22:265640

大型音频语言模型（LALM）目前主要聚焦于语音转文字，虽在转录准确率上取得突破，却缺乏对语义、情感和上下文的深度理解。文章指出模型在倾听能力上的局限，并提出跨模态预训练和层次化记忆两大技术路线作为突破口，呼吁从单纯转录向真正的听懂与交互转变。

音频语言模型语音识别多模态生成语义理解长上下文（256K token）

voxtral.c: 使用纯C语言实现Mistral Voxtral实时4B语音到文本模型的推理

原文

媒体Lobsters AI2026/02/06 15:4450

Mistral的voxtral.c是一个基于纯C语言实现的推理引擎，用于Voxtral实时4B语音到文本模型。它旨在提高推理效率并降低成本，适用于语音数据处理场景。该技术为开发者提供了对模型内部逻辑的深入控制，有助于优化性能和资源管理。

语音识别 CPU推理边缘计算 C 语言编程

PazaBench：面向低资源语言的自动语音识别基准与模型发布

原文

官方Microsoft Research Blog2026/02/05 13:077960

• PazaBench评估低资源非洲语言ASR模型

• Paza模型基于Phi-4、mms-1b-all和Whisper

微软发布PazaBench，首个针对低资源非洲语言的ASR基准，涵盖39种语言和52个模型。Paza系列模型基于Phi-4、mms-1b-all和Whisper，针对肯尼亚六种语言进行微调，提升转录质量与跨语言泛化能力。通过实地测试和社区反馈，推动AI在未充分代表语言中的应用。

模型调优以用户为中心设计自动语音识别低资源语言社区测试