Google、Mistral、Cohere 与 OpenAI 连发多模态与语音模型，突破上下文与多语言能力

AINews2026/03/24 13:44机翻/自动摘要/自动分类

内容评分

技术含量

7/10

营销水分

5/10

摘要

Google、Mistral、Cohere 与 OpenAI 本周相继发布新模型：Google 的 Gemini 3.1 Flash Live 提供 70 语言、128k 上下文的实时语音视觉代理；Mistral 的开源 Voxtral TTS 支持 9 语言、低延迟，性能媲美 ElevenLabs；Cohere 的 Transcribe 在 14 语言上提供 5.42% 的英语 WER；OpenAI 推出 400k 上下文的 GPT-5.4 mini/nano，虽成本低但幻觉率高。其他新产品如 GLM-5‑Turbo、Reka Edge、Flash 3 与 Cline Kanban 进一步丰富多模态与开发者工具生态。

正文

Google 推出 Gemini 3.1 Flash Live，定位为实时语音与视觉代理模型。该模型将对话记忆容量提升至原来的两倍，支持 70 种语言，最大达 128k ，能够在交互式场景中实现长时记忆与多模态感知。

Mistral AI 发布 Voxtral TTS，这是一款低延迟、开源的文本转语音模型，覆盖 9 种语言。内部基准显示，其自然度与流畅度可与商业服务 ElevenLabs 相媲美，且提供完整的模型权重与推理代码。

Cohere 推出 Cohere Transcribe，面向多语言音频的 ASR 模型，支持 14 种语言。该模型在英语数据集上的词错误率（WER）仅为 5.42%，在业界属于领先水平。

OpenAI 公布更小型的多模态变体 GPT-5.4 mini 与 GPT-5.4 nano，均拥有 400k 的上下文窗口。虽然在成本和部署灵活性上具备优势，但评测指出其生成文本中冗余表达和幻觉（）出现频率相对较高。

其他值得关注的发布包括 Zai 的 GLM-5‑Turbo、OpenRouter 平台上的 Reka Edge 与 Flash 3，以及面向命令行接口（CLI）编码的多代理协作工具 Cline Kanban，均展示了当前 AI 生态在模型规模、跨模态交互和开发者工具方面的快速迭代。

Google、Mistral、Cohere 与 OpenAI 连发多模态与语音模型，突破上下文与多语言能力

内容评分

摘要

正文

标签