专题:diffusion-model

按该标签聚合的大模型资讯列表(自动分类与标签提取)。3 篇文章。

媒体量子位2026/04/08 14:105870
VoxCPM 2:2 B 参数多方言多语言语音模型
采用扩散自回归连续表征,实现秒级高保真合成

VoxCPM 2 是面壁智能推出的 2 B 参数开源语音模型,支持九种中文方言和三十种外语,具备音色可控、48 kHz 高保真和秒级生成等特性。其核心采用扩散自回归连续表征的 Tokenizer‑Free 架构,能够在保持情感与细节的同时实现快速合成。模型已全量开源并提供在线体验,适用于配音、游戏、动画等多场景。

媒体爱范儿2026/03/13 10:007820
爱诗科技获3亿美元C轮融资
DiT架构提升视频生成能力

爱诗科技完成3亿美元C轮融资,成为国内AI视频生成领域最大单笔融资。其DiT架构结合Diffusion与Transformer,提升视频生成能力。PixVerse V5.6位列全球第二,R1产品实现实时交互,推动内容创作革新。资本看好其在互动内容领域的潜力,预示AI视频生成技术将引领行业变革。

媒体Lobsters AI2026/02/25 18:025740

Mercury 系列模型采用扩散算法实现并行文本生成,在 H100 GPU 上实现 1,109 tokens/s 的超高速解码。Mini 版在质量评测中与 GPT‑4o、Claude 3.5 Haiku 等主流模型持平,平均延迟仅 25 ms。该工作证明扩散模型可在离散序列上大规模训练,为代码生成等高吞吐任务提供了新的高效路径。