专题：multimodal-llm

按该标签聚合的大模型资讯列表（自动分类与标签提取）。共 5 篇文章。

AsgardBench：视觉交互规划的AI代理评估基准

官方Microsoft Research Blog2026/03/27 03:025860

• 基于AI2-THOR模拟环境

• 评估视觉规划能力

AsgardBench是基于AI2-THOR的开源基准测试工具，用于评估AI代理在视觉交互规划任务中的表现。通过模拟真实场景，测试AI系统如何利用视觉信息动态调整计划，揭示视觉感知对规划成功率的关键作用及现有模型在复杂环境中的局限性，为提升AI视觉交互能力提供研究方向。

开源工具开源工具 AI代理评估动态反馈机制环境适应性

多模态大语言模型的Token压缩技术综述：从分类到挑战与未来

原文

媒体机器之心2026/02/22 20:565870

本文系统综述了多模态大语言模型中Token压缩技术，从图像、视频、音频三个模态出发，分类讨论了基于变换、相似度、注意力和查询的压缩方法，分析了性能与效率的权衡、部署难题及多轮对话适应性等挑战，并展望了跨模态协同压缩和原生高效架构等未来方向，为MLLM的效率优化提供了重要参考。

token压缩多模态大语言模型自回归生成效率优化跨模态协同

阿里云通义千问Qwen3.5-397B模型实现“发布即多芯”，FlagOS赋能跨芯片适配与零改码部署

原文

媒体机器之心2026/02/20 21:126840

阿里云发布了参数量达3970亿的旗舰级多模态大模型Qwen3.5-397B-A17B。众智FlagOS社区迅速完成了该模型在沐曦、平头哥真武、英伟达等多种AI芯片上的适配与部署，并推出了vLLM多芯片插件，实现“发布即多芯”和“零改码”部署。FlagOS通过统一系统软件栈、高性能算子库、AI编译器和迁移工具，极大降低了大模型跨芯片落地的门槛，并鼓励开发者参…

通义千问大语言模型多模态大语言模型 Mixture-of-Experts 跨芯片适配

Google 推出 Gemini 3.1 Pro：最新大语言模型可在 Vertex AI 预览

原文

社区Hacker News2026/02/19 23:193370

Google DeepMind 发布 Gemini 3.1 Pro，作为最新的多模态大语言模型在 Vertex AI 上开放预览。文章提供模型预览链接和官方模型卡片，帮助开发者快速了解模型规模、训练数据及能力概述，并可在 Google Cloud 环境中进行 API 调用实验。

Gemini 3.1 Pro Google 大语言模型 Vertex AI 多模态大语言模型

Ovis2.6-30B-A3B 多模态大模型发布：MoE 架构加持，视觉理解与长文本能力超越Qwen3-VL

原文

社区Reddit r/LocalLLaMA2026/02/12 20:0840

Ovis 系列多模态大模型（MLLM）发布最新版本 Ovis2.6-30B-A3B。该模型在 Ovis2.5 的基础上，将核心 LLM 骨干网络升级为稀疏混合专家（MoE）架构，旨在以更低的推理成本提供卓越的多模态性能。Ovis2.6-30B-A3B 在长上下文和高分辨率内容理解、基于主动图像分析的视觉推理以及信息密集型文档理解方面均有显著提升。据称，在 …

多模态大语言模型 MoE架构视觉推理长上下文（256K token）模型优化