首页/详情

刘壮陈丹琦开源通用视觉推理RL框架Vero,刷新SOTA

量子位2026/04/11 09:23机翻/自动摘要/自动分类
1 阅读

内容评分

技术含量
8/10
营销水分
6/10

摘要

Vero是一个开源的通用视觉推理强化学习框架,通过广泛数据和任务路由奖励机制,解决了模型泛化和任务切换问题。在30多项测试中达到SOTA,且所有资源已开源,对开发者和研究者具有重要参考价值。

正文

普林斯顿大学刘壮团队联合陈丹琦推出开源视觉推理强化学习框架Vero,该框架基于广泛且均衡的数据集构建,能够胜任图表、科学、空间理解等多种视觉任务。Vero通过任务路由奖励机制和单阶段强化学习方法,解决了传统RL训练中模型泛化能力差、任务切换困难等问题。在30多项测试中,Vero训练的模型在23项上超越了Qwen3-VL-8B-Thinking。项目已完全开源,包含数据、代码和模型。研究团队成员包括PLI博士后Gabriel Sarch和硕士生Linrong Cai,刘壮曾获CVPR 2017最佳论文奖,与何恺明、LeCun等有深度合作。

标签