首页/详情

面壁智能开源 VoxCPM 2:2B 参数多方言多语言高保真语音模型

量子位2026/04/08 14:10机翻/自动摘要/自动分类
7 阅读

内容评分

技术含量
8/10
营销水分
5/10

摘要

VoxCPM 2 是面壁智能推出的 2 B 参数开源语音模型,支持九种中文方言和三十种外语,具备音色可控、48 kHz 高保真和秒级生成等特性。其核心采用扩散自回归连续表征的 Tokenizer‑Free 架构,能够在保持情感与细节的同时实现快速合成。模型已全量开源并提供在线体验,适用于配音、游戏、动画等多场景。

正文

面壁智能联合 OpenBMB 开源社区、清华大学人机语音交互实验室,推出了全新升级的 VoxCPM 2 语音模型。该模型仅 2 B 参数,却实现了以下关键能力:

  • 多方言:支持四川话、粤语、吴语、东北话、河南话、陕西话、山东话、天津话、闽南语等九种中文方言,能够精准复刻方言特有的发音和韵律。
  • 多语言:内置 30 种外语语音合成,示例包括韩语、泰语、西班牙语等,且在不同语言之间保持原声的情感基调。
  • 音色设计与可控:支持自定义音色、音色可控、参考音频降噪、文本规范化、CFG Value 调节听话程度、LocDiT 步数调节音质等高级功能。
  • 高保真:采样率提升至 48 kHz(CD 质量),显著优于市面常见的 24 kHz。
  • 快速生成:端到端扩散自回归连续表征(Diffusion Autoregressive Continuous Representation)架构,使单句合成耗时不足 1 秒。

技术实现上,VoxCPM 2 采用 Tokenizer‑Free 的 TTS 系统,基于面壁自研的 MiniCPM 基座,利用扩散自回归连续表征实现语义‑声学的隐式解耦,最大程度保留原始声学细节和情感基调。模型已在 Hugging Face、GitHub 上开源,提供完整权重、Torch 推理、LoRA 与全参数工具链,并配套在线体验页面(https://voxcpm.modelbest.cn/)。

文章演示了模型在复刻郭德纲《莽撞人》高难度贯口、东北话版《火影忍者》台词、以及《甄嬛传》中文片段的多语言翻译等场景,展示了其在影视配音、游戏、动画、有声书等行业的落地潜力。

标签