刘壮陈丹琦开源通用视觉推理RL框架Vero,刷新SOTA原文媒体量子位2026/04/11 09:236810• 开源视觉推理RL框架Vero• 任务路由奖励机制Vero是一个开源的通用视觉推理强化学习框架,通过广泛数据和任务路由奖励机制,解决了模型泛化和任务切换问题。在30多项测试中达到SOTA,且所有资源已开源,对开发者和研究者具有重要参考价值。视觉推理强化学习多模态数据集任务路由奖励开源框架