AsgardBench是基于AI2-THOR的开源基准测试工具,用于评估AI代理在视觉交互规划任务中的表现。通过模拟真实场景,测试AI系统如何利用视觉信息动态调整计划,揭示视觉感知对规划成功率的关键作用及现有模型在复杂环境中的局限性,为提升AI视觉交互能力提供研究方向。
专题:multimodal-llm
按该标签聚合的大模型资讯列表(自动分类与标签提取)。共 5 篇文章。
官方Microsoft Research Blog2026/03/27 03:025860
• 基于AI2-THOR模拟环境
• 评估视觉规划能力
媒体机器之心2026/02/22 20:565870
本文系统综述了多模态大语言模型中Token压缩技术,从图像、视频、音频三个模态出发,分类讨论了基于变换、相似度、注意力和查询的压缩方法,分析了性能与效率的权衡、部署难题及多轮对话适应性等挑战,并展望了跨模态协同压缩和原生高效架构等未来方向,为MLLM的效率优化提供了重要参考。
媒体机器之心2026/02/20 21:126840
阿里云发布了参数量达3970亿的旗舰级多模态大模型Qwen3.5-397B-A17B。众智FlagOS社区迅速完成了该模型在沐曦、平头哥真武、英伟达等多种AI芯片上的适配与部署,并推出了vLLM多芯片插件,实现“发布即多芯”和“零改码”部署。FlagOS通过统一系统软件栈、高性能算子库、AI编译器和迁移工具,极大降低了大模型跨芯片落地的门槛,并鼓励开发者参…
社区Hacker News2026/02/19 23:193370
Google DeepMind 发布 Gemini 3.1 Pro,作为最新的多模态大语言模型在 Vertex AI 上开放预览。文章提供模型预览链接和官方模型卡片,帮助开发者快速了解模型规模、训练数据及能力概述,并可在 Google Cloud 环境中进行 API 调用实验。
社区Reddit r/LocalLLaMA2026/02/12 20:0840
Ovis 系列多模态大模型(MLLM)发布最新版本 Ovis2.6-30B-A3B。该模型在 Ovis2.5 的基础上,将核心 LLM 骨干网络升级为稀疏混合专家(MoE)架构,旨在以更低的推理成本提供卓越的多模态性能。Ovis2.6-30B-A3B 在长上下文和高分辨率内容理解、基于主动图像分析的视觉推理以及信息密集型文档理解方面均有显著提升。据称,在 …