专题：multimodal

按该标签聚合的大模型资讯列表（自动分类与标签提取）。共 53 篇文章。

2026年4月18日Hacker News AI/LLM热点综述：OpenAI Codex升级、Anthropic Claude Design、模型成本与隐私议题

媒体SuperTechFans2026/04/18 08:055600

• OpenAI 发布具插件化的通用代理 Codex

• Claude 4.7 分词器成本提升 12%

本篇综述梳理了 2026 年 4 月 18 日 Hacker News 上的 AI/LLM 关键动态，包括 OpenAI 升级版 Codex 的通用代理功能、Anthropic 推出的 Claude Design 设计助理、Claude 4.7 分词器成本上升、Qwen 3.6‑35B 在文本到图像生成上的优势，以及围绕精确定位数据和设备年龄验证的隐私监管…

OpenAI Anthropic 大型语言模型隐私监管多模态生成

Cloudflare Agents SDK 新增语音处理功能：实现多模态智能助手交互

原文

媒体The Cloudflare Blog2026/04/15 21:005700

• 语音功能集成 Agents SDK

• 实时语音交互支持

Cloudflare 为 Agents SDK 推出语音处理功能，允许开发者在现有智能助手架构中集成语音交互。该方案通过统一的 WebSocket 连接实现文本与语音状态同步，支持实时对话、多模态整合及低延迟传输。提供 React 钩子和通用客户端组件，开发者可灵活组合语音转文本（STT）和文本转语音（TTS）服务，无需重构现有系统。

语音处理 AI模型 SDK框架实时语音多模态生成

蚂蚁集团AI鉴真技术在顶会突破：高精度Deepfake检测新方案

原文

媒体InfoQ 中文2026/04/11 00:104810

• 蚂蚁集团发布多模态Deepfake检测系统AI鉴真

• 在DFDC等基准上突破96%准确率

蚂蚁集团在顶会发布AI鉴真Deepfake检测系统，采用多模态特征融合与自监督对抗学习，实现高精度伪造识别。实验在DFDC和FaceForensics++上分别达到96.8%和94.5%准确率，已在金融风控等业务中试点，展示了跨媒体检测的优势。

Deepfake 检测多模态生成自监督学习生成对抗网络 AI安全

阿里巴巴ATH创新事业部正式确认：视频生成模型 HappyHorse 由郑波团队研发

原文

媒体爱范儿2026/04/10 14:125610

• HappyHorse 视频生成模型由阿里 ATH 郑波团队研发

• 在 Artificial Analysis 排行榜上夺冠，支持多模态生成

阿里巴巴 ATH 创新事业部确认，视频生成模型 HappyHorse 由郑波团队研发，已在 Artificial Analysis 评测平台夺冠，支持文本/图像到视频的多模态生成并计划 4 月 30 日开放 API。模型展示了皮克斯风格短片、带音效的篮球、洞穴探险等案例，体现阿里在大模型和多模态交互方面的最新布局。

视频生成多模态生成大模型 API 接口阿里巴巴 AI

AI技术动态速递：ChatGPT Pro发布与多领域应用进展

原文

媒体爱范儿2026/04/10 08:236520

• ChatGPT推出100美元Pro订阅，专注开发者Codex功能

• 腾讯QClaw V2支持多Agent协作提升智能体效率

本文聚焦AI领域最新动态，包括OpenAI推出ChatGPT Pro订阅服务（100美元/月）、腾讯QClaw V2多Agent智能体发布、MiniMax全模态命令行工具MMX-CLI亮相等技术创新。同时涵盖行业政策调整（微信公众号禁用AI工具）、航天探索（NASA月球任务）及产品发布（大疆Pocket 4、三星Z Fold 8）。核心亮点在于AI模型能力…

ChatGPT 多Agent协作多模态生成 Codex AI产品发布

Meta发布原生多模态大模型 Muse Spark：9 个月重构全栈，算力提升 10 倍，首度实现医学推理与沉思模式

原文

媒体量子位2026/04/09 09:497810

• Meta 9 个月重构发布多模态模型 Muse Spark

• 算力提升 10 倍，推理与医学能力显著

Meta 经过 9 个月全链路重构推出原生多模态大模型 Muse Spark，凭借算力提升 10 倍、强化学习和沉思模式，在多模态感知、医学问答和推理任务上与 Gemini、GPT 5.4 持平或领先。模型已上线但闭源，API 仅限合作伙伴，计划后续开源。短板仍在编程和长时自主 Agent 任务。

多模态生成强化学习医疗问答 Token 效率 AI Agent

Meta 发布多模态推理模型 Muse Spark，开放模型与安全部署成焦点

原文

媒体AINews2026/04/08 13:444740

• Meta 推出多模态 Muse Spark

• 开源模型 GLM‑5.1 与 Qwen 3.6 Plus 进展

Meta 发布具备工具使用、视觉思维链和多智能体协同能力的多模态模型 Muse Spark，评测显示其在部分任务上可与顶级模型媲美。与此同时，GLM‑5.1、Qwen 3.6 Plus 等开源大模型持续迭代，部署仍受硬件限制。社区讨论了模型部署优化、安防防护以及商业化路径，描绘了当前 AI 生态的技术与市场双重趋势。

多模态生成开源模型模型部署 AI 安全商业化

DeepSeek 推出快速/专家模式并暗示 V4 版本即将面世

原文

媒体量子位2026/04/08 11:585610

• DeepSeek 新增快速模式与专家模式。

• 模型自称 V4，可能是 V4 Lite 版本。

DeepSeek 在网页端推出快速模式和专家模式，并在界面上自称 V4，暗示新一代模型即将发布。快速模式侧重即时对话并支持多模态，专家模式面向复杂任务但不支持多模态，生成质量更高。社区实测显示专家模式可能是 V4 Lite，仍未达到传闻的 1M token 上下文。视觉模型也进入灰度测试，整体更新表明 DeepSeek 正在为完整 V4 做最后准备。

DeepSeek V4 模型多模态生成上下文长度视觉模型

DeepSeek V4 重大升级：快速模式、专家模式与即将到来的 Vision 多模态

原文

媒体爱范儿2026/04/08 11:435650

• DeepSeek 网页端新增快速/专家两种模式

• 专家模式在复杂任务上表现更好，功能略受限

DeepSeek 在网页端悄然推出 V4 版升级，新增快速模式与专家模式两种使用路径。快速模式侧重速度和多模态输入，专家模式在复杂任务上表现更佳但功能受限。实测表明专家模式在物理仿真和创意写作上优势明显，Vision 多模态模型即将上线。公司开始引入付费服务，以支撑长期运营。

大型语言模型多模态生成模型升级产品策略

Deep Agents v0.5：异步子代理与多模态文件系统全新升级

原文

媒体LangChain Blog2026/04/08 01:064840

• 新增异步子代理，任务可远程后台执行

• 文件系统支持 PDF、音频、视频等多模态

Deep Agents v0.5 引入异步子代理，支持将任务委托给远程后台代理并即时返回任务 ID，同时提供任务管理工具。文件系统扩展至 PDF、音频、视频等多模态类型，自动识别 MIME 并传递给模型。采用 LangChain 的 Agent Protocol 作为标准服务器协议，兼容多种部署方式，提升并发与多模态处理能力。

异步子代理多模态生成 Agent 协议 Deep Agents 框架

Anthropic年收入破300亿美元，推出Claude Mythos并预览Project GlassWing——因安全风险限制公开

原文

媒体AINews2026/04/07 13:444830

• Anthropic 年收入超 300 亿美元

• 发布高性能模型 Claude Mythos，采用受限发布

Anthropic 年收入突破 300 亿美元，并推出高性能模型 Claude Mythos 与安全项目 GlassWing。Claude Mythos 具备更强推理和多模态能力，但因安全风险采用受限发布，仅向可信合作伙伴开放。GlassWing 提供实时监控与风险评估，结合 RLHF 与对抗训练降低有害输出。技术上，模型使用约 1800 亿参数的混合稀疏…

大语言模型安全治理 RLHF 多模态生成商业收入

ReCALL框架：解决生成式与判别式范式冲突，提升多模态检索性能

原文

媒体量子位2026/04/06 23:307930

• 解决生成式与判别式范式冲突

• 四阶段闭环校准框架

ReCALL框架通过‘诊断-生成-校准’闭环解决生成式与判别式范式冲突，显著提升多模态图像检索性能，已在CVPR 2026录用，刷新CIRR和FashionIQ数据集的SOTA表现。

多模态生成检索 SOTA CVPR 范式

OpenAI即将发布GPT-6：性能提升40%、原生多模态与算力挑战

原文

媒体量子位2026/04/05 12:497660

• GPT-6性能提升40%

• 原生多模态架构突破

OpenAI即将发布GPT-6大模型，性能较GPT-5.4提升40%，支持文本、音频、图像、视频的原生多模态处理，上下文窗口达2M Token。该模型将整合ChatGPT、Codex和Atlas浏览器，打造统一智能体。GPT-Image 2已展示超现实图像生成能力，但已下架。文章分析了OpenAI为GPT-6砍掉非核心业务、调整组织架构的算力战略，以及由此…

多模态AI 上下文窗口 AGI 算力竞争多模态模型

阿里千问3.6Plus API调用量破1.4万亿Token登顶全球榜首

原文

媒体量子位2026/04/04 21:388670

• API调用量破1.4万亿Token

• 编程能力登顶中国榜首

阿里千问3.6Plus在OpenRouter平台首日API调用量突破1.4万亿Token，创全球单日调用新高。该模型在编程能力子榜登顶中国，多模态能力超越Gemini-3.1 Pro，配合全模态、文生图等多领域模型形成技术矩阵。开发者通过'氛围编程'可直接生成可用应用，展现大模型在实际场景中的高效应用价值。

大模型API调用模型性能应用接入热潮 API调用量多模态模型

Google DeepMind发布Gemma 4多模态开源模型，引发AI社区热议

原文

媒体Latent Space2026/04/04 06:036770

• Gemma 4多模态模型发布

• 内存需求引发性能讨论

Google DeepMind推出Gemma 4多模态开源模型，涵盖文本、图像和音频处理能力，提供四种规模版本。其Dense与MoE架构优化了生成与推理任务，引发社区对性能与内存需求的讨论。同时，Hermes Agent因稳定性成为热门代理框架，微软企业级语音识别模型MAI-Transcribe-1也获得关注，凸显AI技术在研究与应用层面的双重进展。

开源框架多模态生成模型架构内存优化技术企业AI

Google 开源 Gemma 4：高效多模态推理与设备端部署，生态广泛支持

原文

媒体AINews2026/04/03 13:445750

• Google 开源 Gemma 4，聚焦高效推理与多模态

• 在 RTX 4090 与 Mac M4 上实现出色本地性能

Google 在 Apache 2.0 许可下开源 Gemma 4，主打高效推理、自治工作流和多模态处理，参数规模仅为传统大模型的十分之一，却在性能和排名上超越 10 倍大模型。模型已兼容 vLLM、llama.cpp、Ollama、Intel 硬件、Unsloth 与 Hugging Face 推理端点，并在 RTX 4090 与 Mac mini M4…

Gemma 4 MoE架构 Hermes Agent 大模型兼容性开源大语言模型

阿里发布Qwen3.6-Plus编程大模型，性能对标Claude

原文

媒体量子位2026/04/02 15:088960

• Qwen3.6-Plus性能对标Claude

• 支持Vibe Coding与多模态生成

阿里发布Qwen3.6-Plus编程大模型，性能接近Claude，具备Vibe Coding、多模态理解及智能体能力。通过多个实测案例展示其在网页开发、3D场景生成和代码重构方面的强大表现，已上线阿里云平台，为开发者提供高效编程工具。

通义千问氛围编码多模态生成 AI Agent 编程模型

Google DeepMind 发布 Gemma 4 系列：开源多模态模型，支持 256K 令牌长上下文

原文

媒体AINews2026/04/02 13:445840

• Gemma 4 系列开源，Apache 2.0 许可

• 支持 256K 令牌长上下文和多模态输入

Google DeepMind 开源了 Gemma 4 系列多模态模型，提供 256K 令牌长上下文、文本/视觉/音频统一处理，并推出 31B 密集、26B MoE 以及面向边缘的 4B/2B 版本。Gemma‑31B 在开源榜单位列第三，GPQA Diamond 取得 85.7% 成绩。发布即获 llama.cpp、Ollama、vLLM 等框架支持，且…

Gemma 模型多模态模型开放权重模型模型优化推理能力

Qwen3.5-Omni实测：215项SOTA，全模态交互与实时编程能力

原文

媒体量子位2026/03/31 16:227950

• 全模态理解与生成能力

• 实时视频编程与对话

Qwen3.5-Omni是阿里推出的全模态AI模型，具备215项SOTA成绩，支持音视频理解、实时编程和语义打断等创新功能。其Thinker-Talker架构和Hybrid-Attention MoE技术提升了处理效率和交互自然度，适用于视频会议、论文解读和网页设计等场景。

多模态生成实时编程混合注意力 SOTA 自适应速率交错对齐

AI Agent 架构设计中的数据库应用与演进

原文

媒体InfoQ 中文2026/03/28 00:145840

• 数据库在 AI Agent 中角色发生转变

• 支持多模态与实时数据处理

本文探讨了 AI Agent 架构中数据库的应用变化，分析了其在多模态数据处理、实时推理和动态知识更新中的关键作用，并提出了未来数据库架构的发展方向，具有较高的技术参考价值。

AI代理数据库系统架构实时响应多模态生成