Google、Mistral、Cohere 与 OpenAI 连发多模态与语音模型,突破上下文与多语言能力
内容评分
摘要
Google、Mistral、Cohere 与 OpenAI 本周相继发布新模型:Google 的 Gemini 3.1 Flash Live 提供 70 语言、128k 上下文的实时语音视觉代理;Mistral 的开源 Voxtral TTS 支持 9 语言、低延迟,性能媲美 ElevenLabs;Cohere 的 Transcribe 在 14 语言上提供 5.42% 的英语 WER;OpenAI 推出 400k 上下文的 GPT-5.4 mini/nano,虽成本低但幻觉率高。其他新产品如 GLM-5‑Turbo、Reka Edge、Flash 3 与 Cline Kanban 进一步丰富多模态与开发者工具生态。
正文
Google 推出 Gemini 3.1 Flash Live,定位为实时语音与视觉代理模型。该模型将对话记忆容量提升至原来的两倍,支持 70 种语言,最大达 128k ,能够在交互式场景中实现长时记忆与多模态感知。
Mistral AI 发布 Voxtral TTS,这是一款低延迟、开源的文本转语音模型,覆盖 9 种语言。内部基准显示,其自然度与流畅度可与商业服务 ElevenLabs 相媲美,且提供完整的模型权重与推理代码。
Cohere 推出 Cohere Transcribe,面向多语言音频的 ASR 模型,支持 14 种语言。该模型在英语数据集上的词错误率(WER)仅为 5.42%,在业界属于领先水平。
OpenAI 公布更小型的多模态变体 GPT-5.4 mini 与 GPT-5.4 nano,均拥有 400k 的上下文窗口。虽然在成本和部署灵活性上具备优势,但评测指出其生成文本中冗余表达和幻觉()出现频率相对较高。
其他值得关注的发布包括 Zai 的 GLM-5‑Turbo、OpenRouter 平台上的 Reka Edge 与 Flash 3,以及面向命令行接口(CLI)编码的多代理协作工具 Cline Kanban,均展示了当前 AI 生态在模型规模、跨模态交互和开发者工具方面的快速迭代。