LongCat-AudioDiT：突破零样本 TTS 音色克隆的波形潜空间扩散模型

美团技术团队2026/04/20 08:00机翻/自动摘要/自动分类

内容评分

技术含量

8/10

营销水分

5/10

摘要

LongCat-AudioDiT 是美团 LongCat 团队推出的波形潜空间扩散模型，直接在潜编码上进行 TTS 生成，摆脱梅尔谱等中间表示，实现零样本音色克隆。该方法通过噪声去噪采样提升了语音的保真度和相似度，在主观评价上显著优于传统流水线模型，为语音合成提供了全新端到端方案。

正文

美团 LongCat 团队近日发布了 LongCat-AudioDiT，首次在波形潜空间直接使用扩散模型（Diffusion Model）完成文本到语音（TTS）合成。传统 TTS 流程通常经过梅尔谱等中间表示，再由声码器将谱图转为波形，这一链式结构会导致级联误差，尤其在零样本音色克隆场景下表现尤为突出。LongCat-AudioDiT 通过以下创新实现了端到端的声音克隆：

波形潜空间建模：利用自监督学习得到的潜编码，直接在该空间上进行扩散采样，省去梅尔谱等显式特征的转换。
零样本音色克隆：在仅有少量或无目标说话人数据的情况下，模型即可捕捉并复制目标音色，实现“零样本”克隆。
扩散生成框架：采用噪声逐步去噪的方式生成高保真波形，天然具备抗噪声和细节恢复能力。

实验结果显示，LongCat-AudioDiT 在 MOS（Mean Opinion Score）和 SMOS（Similarity MOS）上均显著超越基于梅尔谱的最新 TTS 系统，尤其在高保真度和音色相似度方面提升明显。该模型的发布为语音合成领域提供了一条全新的技术路径，也为后续的多模态生成、跨语言克隆等研究奠定了基础。

LongCat-AudioDiT：突破零样本 TTS 音色克隆的波形潜空间扩散模型

内容评分

摘要

正文

标签