专题:multimodal-processing

按该标签聚合的大模型资讯列表(自动分类与标签提取)。5 篇文章。

官方Simon Willison2026/04/03 02:287960
Gemma 4发布多模态LLM
采用PLE提升参数效率

谷歌发布Gemma 4系列多模态LLM,包含2B/4B/31B及26B-A4B参数模型。核心亮点包括Per-Layer Embeddings架构提升参数效率、支持视频/音频/OCR等视觉任务处理,以及通过AI Studio提供API接口。测试显示20亿参数模型运行正常,但31B模型存在输出异常,作者演示了模型生成SVG图像的应用案例。

媒体AINews2026/04/01 13:445850
Arcee Trinity‑Large‑Thinking 4000 B 参数,PinchBench 第二
Z.ai GLM‑5V‑Turbo 原生多模态,使用 CogViT 编码器

本文梳理了近期 AI 领域的多项技术进展:Arcee 发布 4000 亿参数的 Trinity‑Large‑Thinking 模型并在 PinchBench 中名列前茅;Z.ai 推出原生多模态的 GLM‑5V‑Turbo,基于 CogViT 编码器;TII 的 Falcon Perception 采用 early‑fusion Transformer,实…

媒体AINews2026/03/24 13:445730
ARC-AGI-3测试凸显人类推理优势
LangChain推出Fleet共享技能

ARC-AGI-3基准测试揭示当前LLM在交互式环境中的推理局限,人类表现远超模型。文章分析了测试争议,同时介绍了LangChain共享技能、Claude Code自动模式等创新方案,以及浏览器/编码代理训练系统的演进趋势,展现AI代理技术的多维突破。