专题：tts

按该标签聚合的大模型资讯列表（自动分类与标签提取）。共 10 篇文章。

面壁智能开源 VoxCPM 2：2B 参数多方言多语言高保真语音模型

媒体量子位2026/04/08 14:105870

• VoxCPM 2：2 B 参数多方言多语言语音模型

• 采用扩散自回归连续表征，实现秒级高保真合成

VoxCPM 2 是面壁智能推出的 2 B 参数开源语音模型，支持九种中文方言和三十种外语，具备音色可控、48 kHz 高保真和秒级生成等特性。其核心采用扩散自回归连续表征的 Tokenizer‑Free 架构，能够在保持情感与细节的同时实现快速合成。模型已全量开源并提供在线体验，适用于配音、游戏、动画等多场景。

文本转语音扩散模型多语言支持方言支持开源框架

Mistral发布Voxtral TTS等创新成果，探讨Mistral 4技术演进

原文

媒体Latent Space2026/03/31 03:257930

• Voxtral TTS发布

• 开源推进AI发展

Mistral推出Voxtral TTS语音合成模型，融合自回归生成与流匹配技术，性能超越ElevenLabs。同时披露Forge编码器、Leanstral轻量化模型及Mistral 4研发方向，强调开源协作与企业应用落地。技术团队通过架构创新提升语音生成准确度与效率，布局AI语音技术全栈发展。

文本转语音模型优化人工智能研究 Voxtral TTS 自回归生成

AI领域CLI工具与多模态技术新进展

原文

媒体Latent Space2026/03/27 09:357840

• CLI工具提升开发者操作效率

• 语音模型与实时功能更新

多技术平台推出基于CLI的新工具，提升开发者效率。同时，语音模型、实时多模态检索、小型化模型及多代理系统等AI技术取得进展，涵盖基础设施、模型训练与应用优化等多个领域，对AI研究和开发具有重要参考价值。

命令行工具文本转语音多模态生成模型优化研究工具

Google、Mistral、Cohere 与 OpenAI 连发多模态与语音模型，突破上下文与多语言能力

原文

媒体AINews2026/03/24 13:445750

• Google 发布 Gemini 3.1 Flash Live，128k 上下文、70 语言

• Mistral 推 Voxtral TTS，开源低延迟，支持 9 语言

Google、Mistral、Cohere 与 OpenAI 本周相继发布新模型：Google 的 Gemini 3.1 Flash Live 提供 70 语言、128k 上下文的实时语音视觉代理；Mistral 的开源 Voxtral TTS 支持 9 语言、低延迟，性能媲美 ElevenLabs；Cohere 的 Transcribe 在 14 语言上…

文本转语音向量量化显存优化 AI模型大型语言模型

Kitten TTS发布三款微型TTS模型，参数量低至14M且支持多语言

原文

社区Hacker News2026/03/19 23:566860

• 发布三款微型TTS模型，参数量低至14M

• 支持八种声音，无需GPU即可运行

Kitten TTS 发布三款微型TTS模型，参数量低至14M，支持八种声音，可在无GPU设备上运行，显著提升设备端语音合成能力，未来将扩展至多语言。

文本转语音量化技术 ONNX模型边缘AI 开源项目

小米发布MiMo V2系列大模型，涵盖文本、多模态与语音合成

原文

媒体爱范儿2026/03/19 16:127830

• 小米发布MiMo V2系列模型

• MiMo-V2-Pro性能全球第八

小米发布MiMo V2系列模型，涵盖文本、多模态与语音合成。MiMo-V2-Pro性能优异，价格仅为同类产品五分之一，采用混合注意力架构和MTP技术。MiMo-V2-Omni具备全模态处理能力，MiMo-V2-TTS实现AI语音化。该系列标志着AI从对话向任务执行的进化，助力‘人车家全生态’整合。

多模态生成混合注意力文本转语音大型语言模型 API 接口

多模态语音AI模型探索：Seedance 2.0能否整合TTS、STS与声音分离？

原文

社区Reddit r/LocalLLaMA2026/02/23 23:315440

本文探讨了AI语音处理领域一个关键问题：是否存在能同时执行文本转语音（TTS）、语音转文本（STS）及声音分离的集成模型。文章提及Seedance 2.0可能具备部分此类能力，支持文本/音频输入进行语音合成（说话、唱歌），并可训练自定义声音。尽管其具体实现为闭源，但该模型的多功能集成潜力引发了对AI语音模型未来发展方向的讨论，对开发者和研究人员具有参考价值。

文本转语音语音转文本声音分离多模态AI Seedance

离线 TTS 推荐：为 KoboldCPP 生成多角色配音的实用方案

原文

社区Reddit r/LocalLLaMA2026/02/22 16:582440

作者在使用 KoboldCPP 创作剧情时，需要离线、免订阅的 TTS 工具为不同角色配音，并希望能导出 MP3。EaseText 体验不佳，声音生硬。文章请求社区推荐满足这些需求的本地 TTS 软件或开源项目，并提供相应的获取方式。

文本转语音离线功能多角色配音音频导出开源框架

Apple Silicon 本地化 AI 代理：Parakeet STT 与 Kokoro TTS 实现低延迟语音交互

原文

社区Reddit r/LocalLLaMA2026/02/11 19:5670

本文介绍了一种在 Apple Silicon 设备上实现 AI 代理完全本地化语音交互的方案。通过集成 Parakeet STT 和 Kokoro TTS，实现了低延迟的语音识别和合成，消除了对云服务的依赖。这种方式极大地提升了 AI 代理的使用便捷性，使用户可以随时随地通过语音进行交互。文章还提及了集成 3D 虚拟化身以增强交互的自然感，并邀请社区分享类…

AI代理本地大语言模型语音转文本文本转语音 Apple Silicon

构建 WaveNet：深度学习语音合成模型的实现与解析

原文

媒体Andrej Karpathy (YouTube)2022/11/21 08:324840

WaveNet 是一种基于深度学习的语音合成模型，通过膨胀卷积捕捉语音信号的长距离依赖，生成高质量自然语音。文章详细解析其架构、训练技巧及应用潜力，适合希望深入理解语音生成技术的开发者。

WaveNet 文本转语音深度学习卷积神经网络音频合成