专题:waveform-latent

按该标签聚合的大模型资讯列表(自动分类与标签提取)。1 篇文章。

官方美团技术团队2026/04/20 08:005800
LongCat-AudioDiT 直接在波形潜空间使用扩散模型。
实现零样本音色克隆,省去梅尔谱等中间步骤。

LongCat-AudioDiT 是美团 LongCat 团队推出的波形潜空间扩散模型,直接在潜编码上进行 TTS 生成,摆脱梅尔谱等中间表示,实现零样本音色克隆。该方法通过噪声去噪采样提升了语音的保真度和相似度,在主观评价上显著优于传统流水线模型,为语音合成提供了全新端到端方案。