刘壮陈丹琦开源通用视觉推理RL框架Vero，刷新SOTA

量子位2026/04/11 09:23机翻/自动摘要/自动分类

内容评分

技术含量

8/10

营销水分

6/10

摘要

Vero是一个开源的通用视觉推理强化学习框架，通过广泛数据和任务路由奖励机制，解决了模型泛化和任务切换问题。在30多项测试中达到SOTA，且所有资源已开源，对开发者和研究者具有重要参考价值。

正文

普林斯顿大学刘壮团队联合陈丹琦推出开源视觉推理强化学习框架Vero，该框架基于广泛且均衡的数据集构建，能够胜任图表、科学、空间理解等多种视觉任务。Vero通过任务路由奖励机制和单阶段强化学习方法，解决了传统RL训练中模型泛化能力差、任务切换困难等问题。在30多项测试中，Vero训练的模型在23项上超越了Qwen3-VL-8B-Thinking。项目已完全开源，包含数据、代码和模型。研究团队成员包括PLI博士后Gabriel Sarch和硕士生Linrong Cai，刘壮曾获CVPR 2017最佳论文奖，与何恺明、LeCun等有深度合作。

刘壮陈丹琦开源通用视觉推理RL框架Vero，刷新SOTA

内容评分

摘要

正文

标签