LongCat-AudioDiT:突破零样本 TTS 音色克隆的波形潜空间扩散模型
美团技术团队2026/04/20 08:00机翻/自动摘要/自动分类
0 阅读
内容评分
技术含量
8/10
营销水分
5/10
摘要
LongCat-AudioDiT 是美团 LongCat 团队推出的波形潜空间扩散模型,直接在潜编码上进行 TTS 生成,摆脱梅尔谱等中间表示,实现零样本音色克隆。该方法通过噪声去噪采样提升了语音的保真度和相似度,在主观评价上显著优于传统流水线模型,为语音合成提供了全新端到端方案。
正文
美团 LongCat 团队近日发布了 LongCat-AudioDiT,首次在波形潜空间直接使用扩散模型(Diffusion Model)完成文本到语音(TTS)合成。传统 TTS 流程通常经过梅尔谱等中间表示,再由声码器将谱图转为波形,这一链式结构会导致级联误差,尤其在零样本音色克隆场景下表现尤为突出。LongCat-AudioDiT 通过以下创新实现了端到端的声音克隆:
- 波形潜空间建模:利用自监督学习得到的潜编码,直接在该空间上进行扩散采样,省去梅尔谱等显式特征的转换。
- 零样本音色克隆:在仅有少量或无目标说话人数据的情况下,模型即可捕捉并复制目标音色,实现“零样本”克隆。
- 扩散生成框架:采用噪声逐步去噪的方式生成高保真波形,天然具备抗噪声和细节恢复能力。
实验结果显示,LongCat-AudioDiT 在 MOS(Mean Opinion Score)和 SMOS(Similarity MOS)上均显著超越基于梅尔谱的最新 TTS 系统,尤其在高保真度和音色相似度方面提升明显。该模型的发布为语音合成领域提供了一条全新的技术路径,也为后续的多模态生成、跨语言克隆等研究奠定了基础。