大模型资讯聚合站

专题：visual-reasoning

按该标签聚合的大模型资讯列表（自动分类与标签提取）。共 4 篇文章。

刘壮陈丹琦开源通用视觉推理RL框架Vero，刷新SOTA

媒体量子位2026/04/11 09:236810

• 开源视觉推理RL框架Vero

• 任务路由奖励机制

Vero是一个开源的通用视觉推理强化学习框架，通过广泛数据和任务路由奖励机制，解决了模型泛化和任务切换问题。在30多项测试中达到SOTA，且所有资源已开源，对开发者和研究者具有重要参考价值。

视觉推理强化学习多模态数据集任务路由奖励开源项目

AsgardBench：视觉交互规划的AI代理评估基准

官方Microsoft Research Blog2026/03/27 03:025860

• 基于AI2-THOR模拟环境

• 评估视觉规划能力

AsgardBench是基于AI2-THOR的开源基准测试工具，用于评估AI代理在视觉交互规划任务中的表现。通过模拟真实场景，测试AI系统如何利用视觉信息动态调整计划，揭示视觉感知对规划成功率的关键作用及现有模型在复杂环境中的局限性，为提升AI视觉交互能力提供研究方向。

开源工具开源工具 AI代理评估动态反馈机制环境适应性

浙江大学团队提出CA-TTS框架：校准置信度，提升多模态模型推理可靠性

媒体量子位2026/03/22 15:173930

• 校准置信度提升推理可靠性

• CA-TTS框架实现多阶段验证

浙江大学团队提出CA-TTS框架，通过校准置信度和动态资源分配，显著提升多模态模型在视觉模糊情况下的推理准确率和可靠性。该方法在多个基准测试中表现优异，尤其在Math-Vision任务中提升近一倍，具有重要的技术价值。

置信度校准推理时扩展多模态模型强化学习视觉推理

Ovis2.6-30B-A3B 多模态大模型发布：MoE 架构加持，视觉理解与长文本能力超越Qwen3-VL

社区Reddit r/LocalLLaMA2026/02/12 20:0840

Ovis 系列多模态大模型（MLLM）发布最新版本 Ovis2.6-30B-A3B。该模型在 Ovis2.5 的基础上，将核心 LLM 骨干网络升级为稀疏混合专家（MoE）架构，旨在以更低的推理成本提供卓越的多模态性能。Ovis2.6-30B-A3B 在长上下文和高分辨率内容理解、基于主动图像分析的视觉推理以及信息密集型文档理解方面均有显著提升。据称，在 …

多模态大语言模型 MoE架构视觉推理长上下文（256K token）模型优化