首页/详情

LongCat-AudioDiT:突破零样本 TTS 音色克隆的波形潜空间扩散模型

美团技术团队2026/04/20 08:00机翻/自动摘要/自动分类
0 阅读

内容评分

技术含量
8/10
营销水分
5/10

摘要

LongCat-AudioDiT 是美团 LongCat 团队推出的波形潜空间扩散模型,直接在潜编码上进行 TTS 生成,摆脱梅尔谱等中间表示,实现零样本音色克隆。该方法通过噪声去噪采样提升了语音的保真度和相似度,在主观评价上显著优于传统流水线模型,为语音合成提供了全新端到端方案。

正文

美团 LongCat 团队近日发布了 LongCat-AudioDiT,首次在波形潜空间直接使用扩散模型(Diffusion Model)完成文本到语音(TTS)合成。传统 TTS 流程通常经过梅尔谱等中间表示,再由声码器将谱图转为波形,这一链式结构会导致级联误差,尤其在零样本音色克隆场景下表现尤为突出。LongCat-AudioDiT 通过以下创新实现了端到端的声音克隆:

  1. 波形潜空间建模:利用自监督学习得到的潜编码,直接在该空间上进行扩散采样,省去梅尔谱等显式特征的转换。
  2. 零样本音色克隆:在仅有少量或无目标说话人数据的情况下,模型即可捕捉并复制目标音色,实现“零样本”克隆。
  3. 扩散生成框架:采用噪声逐步去噪的方式生成高保真波形,天然具备抗噪声和细节恢复能力。

实验结果显示,LongCat-AudioDiT 在 MOS(Mean Opinion Score)和 SMOS(Similarity MOS)上均显著超越基于梅尔谱的最新 TTS 系统,尤其在高保真度和音色相似度方面提升明显。该模型的发布为语音合成领域提供了一条全新的技术路径,也为后续的多模态生成、跨语言克隆等研究奠定了基础。

标签