专题：diffusion-model

按该标签聚合的大模型资讯列表（自动分类与标签提取）。共 3 篇文章。

面壁智能开源 VoxCPM 2：2B 参数多方言多语言高保真语音模型

媒体量子位2026/04/08 14:105870

• VoxCPM 2：2 B 参数多方言多语言语音模型

• 采用扩散自回归连续表征，实现秒级高保真合成

VoxCPM 2 是面壁智能推出的 2 B 参数开源语音模型，支持九种中文方言和三十种外语，具备音色可控、48 kHz 高保真和秒级生成等特性。其核心采用扩散自回归连续表征的 Tokenizer‑Free 架构，能够在保持情感与细节的同时实现快速合成。模型已全量开源并提供在线体验，适用于配音、游戏、动画等多场景。

文本转语音扩散模型多语言支持方言支持开源框架

爱诗科技获3亿美元C轮融资，引领AI视频生成技术革新

原文

媒体爱范儿2026/03/13 10:007820

• 爱诗科技获3亿美元C轮融资

• DiT架构提升视频生成能力

爱诗科技完成3亿美元C轮融资，成为国内AI视频生成领域最大单笔融资。其DiT架构结合Diffusion与Transformer，提升视频生成能力。PixVerse V5.6位列全球第二，R1产品实现实时交互，推动内容创作革新。资本看好其在互动内容领域的潜力，预示AI视频生成技术将引领行业变革。

扩散模型 Transformer AI视频生成 PixVerse 互动内容

Mercury：基于扩散的超高速代码生成模型

原文

媒体Lobsters AI2026/02/25 18:025740

Mercury 系列模型采用扩散算法实现并行文本生成，在 H100 GPU 上实现 1,109 tokens/s 的超高速解码。Mini 版在质量评测中与 GPT‑4o、Claude 3.5 Haiku 等主流模型持平，平均延迟仅 25 ms。该工作证明扩散模型可在离散序列上大规模训练，为代码生成等高吞吐任务提供了新的高效路径。

扩散模型语言模型并行解码 GPU加速代码生成