专题:multimodal

按该标签聚合的大模型资讯列表(自动分类与标签提取)。53 篇文章。

媒体SuperTechFans2026/04/18 08:055600
OpenAI 发布具插件化的通用代理 Codex
Claude 4.7 分词器成本提升 12%

本篇综述梳理了 2026 年 4 月 18 日 Hacker News 上的 AI/LLM 关键动态,包括 OpenAI 升级版 Codex 的通用代理功能、Anthropic 推出的 Claude Design 设计助理、Claude 4.7 分词器成本上升、Qwen 3.6‑35B 在文本到图像生成上的优势,以及围绕精确定位数据和设备年龄验证的隐私监管…

媒体The Cloudflare Blog2026/04/15 21:005700
语音功能集成 Agents SDK
实时语音交互支持

Cloudflare 为 Agents SDK 推出语音处理功能,允许开发者在现有智能助手架构中集成语音交互。该方案通过统一的 WebSocket 连接实现文本与语音状态同步,支持实时对话、多模态整合及低延迟传输。提供 React 钩子和通用客户端组件,开发者可灵活组合语音转文本(STT)和文本转语音(TTS)服务,无需重构现有系统。

媒体InfoQ 中文2026/04/11 00:104810
蚂蚁集团发布多模态Deepfake检测系统AI鉴真
在DFDC等基准上突破96%准确率

蚂蚁集团在顶会发布AI鉴真Deepfake检测系统,采用多模态特征融合与自监督对抗学习,实现高精度伪造识别。实验在DFDC和FaceForensics++上分别达到96.8%和94.5%准确率,已在金融风控等业务中试点,展示了跨媒体检测的优势。

媒体爱范儿2026/04/10 14:125610
HappyHorse 视频生成模型由阿里 ATH 郑波团队研发
在 Artificial Analysis 排行榜上夺冠,支持多模态生成

阿里巴巴 ATH 创新事业部确认,视频生成模型 HappyHorse 由郑波团队研发,已在 Artificial Analysis 评测平台夺冠,支持文本/图像到视频的多模态生成并计划 4 月 30 日开放 API。模型展示了皮克斯风格短片、带音效的篮球、洞穴探险等案例,体现阿里在大模型和多模态交互方面的最新布局。

媒体爱范儿2026/04/10 08:236520
ChatGPT推出100美元Pro订阅,专注开发者Codex功能
腾讯QClaw V2支持多Agent协作提升智能体效率

本文聚焦AI领域最新动态,包括OpenAI推出ChatGPT Pro订阅服务(100美元/月)、腾讯QClaw V2多Agent智能体发布、MiniMax全模态命令行工具MMX-CLI亮相等技术创新。同时涵盖行业政策调整(微信公众号禁用AI工具)、航天探索(NASA月球任务)及产品发布(大疆Pocket 4、三星Z Fold 8)。核心亮点在于AI模型能力…

媒体量子位2026/04/09 09:497810
Meta 9 个月重构发布多模态模型 Muse Spark
算力提升 10 倍,推理与医学能力显著

Meta 经过 9 个月全链路重构推出原生多模态大模型 Muse Spark,凭借算力提升 10 倍、强化学习和沉思模式,在多模态感知、医学问答和推理任务上与 Gemini、GPT 5.4 持平或领先。模型已上线但闭源,API 仅限合作伙伴,计划后续开源。短板仍在编程和长时自主 Agent 任务。

媒体AINews2026/04/08 13:444740
Meta 推出多模态 Muse Spark
开源模型 GLM‑5.1 与 Qwen 3.6 Plus 进展

Meta 发布具备工具使用、视觉思维链和多智能体协同能力的多模态模型 Muse Spark,评测显示其在部分任务上可与顶级模型媲美。与此同时,GLM‑5.1、Qwen 3.6 Plus 等开源大模型持续迭代,部署仍受硬件限制。社区讨论了模型部署优化、安防防护以及商业化路径,描绘了当前 AI 生态的技术与市场双重趋势。

媒体量子位2026/04/08 11:585610
DeepSeek 新增快速模式与专家模式。
模型自称 V4,可能是 V4 Lite 版本。

DeepSeek 在网页端推出快速模式和专家模式,并在界面上自称 V4,暗示新一代模型即将发布。快速模式侧重即时对话并支持多模态,专家模式面向复杂任务但不支持多模态,生成质量更高。社区实测显示专家模式可能是 V4 Lite,仍未达到传闻的 1M token 上下文。视觉模型也进入灰度测试,整体更新表明 DeepSeek 正在为完整 V4 做最后准备。

媒体爱范儿2026/04/08 11:435650
DeepSeek 网页端新增快速/专家两种模式
专家模式在复杂任务上表现更好,功能略受限

DeepSeek 在网页端悄然推出 V4 版升级,新增快速模式与专家模式两种使用路径。快速模式侧重速度和多模态输入,专家模式在复杂任务上表现更佳但功能受限。实测表明专家模式在物理仿真和创意写作上优势明显,Vision 多模态模型即将上线。公司开始引入付费服务,以支撑长期运营。

媒体LangChain Blog2026/04/08 01:064840
新增异步子代理,任务可远程后台执行
文件系统支持 PDF、音频、视频等多模态

Deep Agents v0.5 引入异步子代理,支持将任务委托给远程后台代理并即时返回任务 ID,同时提供任务管理工具。文件系统扩展至 PDF、音频、视频等多模态类型,自动识别 MIME 并传递给模型。采用 LangChain 的 Agent Protocol 作为标准服务器协议,兼容多种部署方式,提升并发与多模态处理能力。

媒体AINews2026/04/07 13:444830
Anthropic 年收入超 300 亿美元
发布高性能模型 Claude Mythos,采用受限发布

Anthropic 年收入突破 300 亿美元,并推出高性能模型 Claude Mythos 与安全项目 GlassWing。Claude Mythos 具备更强推理和多模态能力,但因安全风险采用受限发布,仅向可信合作伙伴开放。GlassWing 提供实时监控与风险评估,结合 RLHF 与对抗训练降低有害输出。技术上,模型使用约 1800 亿参数的混合稀疏…

媒体量子位2026/04/05 12:497660
GPT-6性能提升40%
原生多模态架构突破

OpenAI即将发布GPT-6大模型,性能较GPT-5.4提升40%,支持文本、音频、图像、视频的原生多模态处理,上下文窗口达2M Token。该模型将整合ChatGPT、Codex和Atlas浏览器,打造统一智能体。GPT-Image 2已展示超现实图像生成能力,但已下架。文章分析了OpenAI为GPT-6砍掉非核心业务、调整组织架构的算力战略,以及由此…

媒体量子位2026/04/04 21:388670
API调用量破1.4万亿Token
编程能力登顶中国榜首

阿里千问3.6Plus在OpenRouter平台首日API调用量突破1.4万亿Token,创全球单日调用新高。该模型在编程能力子榜登顶中国,多模态能力超越Gemini-3.1 Pro,配合全模态、文生图等多领域模型形成技术矩阵。开发者通过'氛围编程'可直接生成可用应用,展现大模型在实际场景中的高效应用价值。

媒体Latent Space2026/04/04 06:036770
Gemma 4多模态模型发布
内存需求引发性能讨论

Google DeepMind推出Gemma 4多模态开源模型,涵盖文本、图像和音频处理能力,提供四种规模版本。其Dense与MoE架构优化了生成与推理任务,引发社区对性能与内存需求的讨论。同时,Hermes Agent因稳定性成为热门代理框架,微软企业级语音识别模型MAI-Transcribe-1也获得关注,凸显AI技术在研究与应用层面的双重进展。

媒体AINews2026/04/03 13:445750
Google 开源 Gemma 4,聚焦高效推理与多模态
在 RTX 4090 与 Mac M4 上实现出色本地性能

Google 在 Apache 2.0 许可下开源 Gemma 4,主打高效推理、自治工作流和多模态处理,参数规模仅为传统大模型的十分之一,却在性能和排名上超越 10 倍大模型。模型已兼容 vLLM、llama.cpp、Ollama、Intel 硬件、Unsloth 与 Hugging Face 推理端点,并在 RTX 4090 与 Mac mini M4…

媒体量子位2026/04/02 15:088960
Qwen3.6-Plus性能对标Claude
支持Vibe Coding与多模态生成

阿里发布Qwen3.6-Plus编程大模型,性能接近Claude,具备Vibe Coding、多模态理解及智能体能力。通过多个实测案例展示其在网页开发、3D场景生成和代码重构方面的强大表现,已上线阿里云平台,为开发者提供高效编程工具。

媒体AINews2026/04/02 13:445840
Gemma 4 系列开源,Apache 2.0 许可
支持 256K 令牌长上下文和多模态输入

Google DeepMind 开源了 Gemma 4 系列多模态模型,提供 256K 令牌长上下文、文本/视觉/音频统一处理,并推出 31B 密集、26B MoE 以及面向边缘的 4B/2B 版本。Gemma‑31B 在开源榜单位列第三,GPQA Diamond 取得 85.7% 成绩。发布即获 llama.cpp、Ollama、vLLM 等框架支持,且…

媒体量子位2026/03/31 16:227950
全模态理解与生成能力
实时视频编程与对话

Qwen3.5-Omni是阿里推出的全模态AI模型,具备215项SOTA成绩,支持音视频理解、实时编程和语义打断等创新功能。其Thinker-Talker架构和Hybrid-Attention MoE技术提升了处理效率和交互自然度,适用于视频会议、论文解读和网页设计等场景。