面壁智能开源 VoxCPM 2：2B 参数多方言多语言高保真语音模型

面壁智能联合 OpenBMB 开源社区、清华大学人机语音交互实验室，推出了全新升级的 VoxCPM 2 语音模型。该模型仅 2 B 参数，却实现了以下关键能力：

多方言：支持四川话、粤语、吴语、东北话、河南话、陕西话、山东话、天津话、闽南语等九种中文方言，能够精准复刻方言特有的发音和韵律。
多语言：内置 30 种外语语音合成，示例包括韩语、泰语、西班牙语等，且在不同语言之间保持原声的情感基调。
音色设计与可控：支持自定义音色、音色可控、参考音频降噪、文本规范化、CFG Value 调节听话程度、LocDiT 步数调节音质等高级功能。
高保真：采样率提升至 48 kHz（CD 质量），显著优于市面常见的 24 kHz。
快速生成：端到端扩散自回归连续表征（Diffusion Autoregressive Continuous Representation）架构，使单句合成耗时不足 1 秒。

技术实现上，VoxCPM 2 采用 Tokenizer‑Free 的 TTS 系统，基于面壁自研的 MiniCPM 基座，利用扩散自回归连续表征实现语义‑声学的隐式解耦，最大程度保留原始声学细节和情感基调。模型已在 Hugging Face、GitHub 上开源，提供完整权重、Torch 推理、LoRA 与全参数工具链，并配套在线体验页面（https://voxcpm.modelbest.cn/）。

文章演示了模型在复刻郭德纲《莽撞人》高难度贯口、东北话版《火影忍者》台词、以及《甄嬛传》中文片段的多语言翻译等场景，展示了其在影视配音、游戏、动画、有声书等行业的落地潜力。

面壁智能开源 VoxCPM 2：2B 参数多方言多语言高保真语音模型

内容评分

摘要

正文

标签