媒体量子位2026/04/08 14:105870
• VoxCPM 2:2 B 参数多方言多语言语音模型
• 采用扩散自回归连续表征,实现秒级高保真合成
VoxCPM 2 是面壁智能推出的 2 B 参数开源语音模型,支持九种中文方言和三十种外语,具备音色可控、48 kHz 高保真和秒级生成等特性。其核心采用扩散自回归连续表征的 Tokenizer‑Free 架构,能够在保持情感与细节的同时实现快速合成。模型已全量开源并提供在线体验,适用于配音、游戏、动画等多场景。
按该标签聚合的大模型资讯列表(自动分类与标签提取)。共 3 篇文章。
VoxCPM 2 是面壁智能推出的 2 B 参数开源语音模型,支持九种中文方言和三十种外语,具备音色可控、48 kHz 高保真和秒级生成等特性。其核心采用扩散自回归连续表征的 Tokenizer‑Free 架构,能够在保持情感与细节的同时实现快速合成。模型已全量开源并提供在线体验,适用于配音、游戏、动画等多场景。
爱诗科技完成3亿美元C轮融资,成为国内AI视频生成领域最大单笔融资。其DiT架构结合Diffusion与Transformer,提升视频生成能力。PixVerse V5.6位列全球第二,R1产品实现实时交互,推动内容创作革新。资本看好其在互动内容领域的潜力,预示AI视频生成技术将引领行业变革。
Mercury 系列模型采用扩散算法实现并行文本生成,在 H100 GPU 上实现 1,109 tokens/s 的超高速解码。Mini 版在质量评测中与 GPT‑4o、Claude 3.5 Haiku 等主流模型持平,平均延迟仅 25 ms。该工作证明扩散模型可在离散序列上大规模训练,为代码生成等高吞吐任务提供了新的高效路径。