专题:tts

按该标签聚合的大模型资讯列表(自动分类与标签提取)。10 篇文章。

媒体量子位2026/04/08 14:105870
VoxCPM 2:2 B 参数多方言多语言语音模型
采用扩散自回归连续表征,实现秒级高保真合成

VoxCPM 2 是面壁智能推出的 2 B 参数开源语音模型,支持九种中文方言和三十种外语,具备音色可控、48 kHz 高保真和秒级生成等特性。其核心采用扩散自回归连续表征的 Tokenizer‑Free 架构,能够在保持情感与细节的同时实现快速合成。模型已全量开源并提供在线体验,适用于配音、游戏、动画等多场景。

媒体Latent Space2026/03/31 03:257930
Voxtral TTS发布
开源推进AI发展

Mistral推出Voxtral TTS语音合成模型,融合自回归生成与流匹配技术,性能超越ElevenLabs。同时披露Forge编码器、Leanstral轻量化模型及Mistral 4研发方向,强调开源协作与企业应用落地。技术团队通过架构创新提升语音生成准确度与效率,布局AI语音技术全栈发展。

媒体Latent Space2026/03/27 09:357840
CLI工具提升开发者操作效率
语音模型与实时功能更新

多技术平台推出基于CLI的新工具,提升开发者效率。同时,语音模型、实时多模态检索、小型化模型及多代理系统等AI技术取得进展,涵盖基础设施、模型训练与应用优化等多个领域,对AI研究和开发具有重要参考价值。

媒体AINews2026/03/24 13:445750
Google 发布 Gemini 3.1 Flash Live,128k 上下文、70 语言
Mistral 推 Voxtral TTS,开源低延迟,支持 9 语言

Google、Mistral、Cohere 与 OpenAI 本周相继发布新模型:Google 的 Gemini 3.1 Flash Live 提供 70 语言、128k 上下文的实时语音视觉代理;Mistral 的开源 Voxtral TTS 支持 9 语言、低延迟,性能媲美 ElevenLabs;Cohere 的 Transcribe 在 14 语言上…

媒体爱范儿2026/03/19 16:127830
小米发布MiMo V2系列模型
MiMo-V2-Pro性能全球第八

小米发布MiMo V2系列模型,涵盖文本、多模态与语音合成。MiMo-V2-Pro性能优异,价格仅为同类产品五分之一,采用混合注意力架构和MTP技术。MiMo-V2-Omni具备全模态处理能力,MiMo-V2-TTS实现AI语音化。该系列标志着AI从对话向任务执行的进化,助力‘人车家全生态’整合。

社区Reddit r/LocalLLaMA2026/02/23 23:315440

本文探讨了AI语音处理领域一个关键问题:是否存在能同时执行文本转语音(TTS)、语音转文本(STS)及声音分离的集成模型。文章提及Seedance 2.0可能具备部分此类能力,支持文本/音频输入进行语音合成(说话、唱歌),并可训练自定义声音。尽管其具体实现为闭源,但该模型的多功能集成潜力引发了对AI语音模型未来发展方向的讨论,对开发者和研究人员具有参考价值。

社区Reddit r/LocalLLaMA2026/02/11 19:5670

本文介绍了一种在 Apple Silicon 设备上实现 AI 代理完全本地化语音交互的方案。通过集成 Parakeet STT 和 Kokoro TTS,实现了低延迟的语音识别和合成,消除了对云服务的依赖。这种方式极大地提升了 AI 代理的使用便捷性,使用户可以随时随地通过语音进行交互。文章还提及了集成 3D 虚拟化身以增强交互的自然感,并邀请社区分享类…