专题:reinforcement-learning

按该标签聚合的大模型资讯列表(自动分类与标签提取)。49 篇文章。

媒体量子位2026/04/11 09:236810
开源视觉推理RL框架Vero
任务路由奖励机制

Vero是一个开源的通用视觉推理强化学习框架,通过广泛数据和任务路由奖励机制,解决了模型泛化和任务切换问题。在30多项测试中达到SOTA,且所有资源已开源,对开发者和研究者具有重要参考价值。

官方Simon Willison2026/04/10 23:566710
语音模式使用GPT-4o旧模型
Codex处理复杂任务更高效

本文揭示ChatGPT语音模式实际采用GPT-4o旧模型,与Codex等高级模型存在显著性能差异。通过对比分析,指出语音交互与代码处理等任务在训练机制和应用场景上的本质区别,强调强化学习奖励函数设计及商业价值对模型能力的直接影响,为开发者理解不同模型定位提供技术视角。

媒体量子位2026/04/09 09:497810
Meta 9 个月重构发布多模态模型 Muse Spark
算力提升 10 倍,推理与医学能力显著

Meta 经过 9 个月全链路重构推出原生多模态大模型 Muse Spark,凭借算力提升 10 倍、强化学习和沉思模式,在多模态感知、医学问答和推理任务上与 Gemini、GPT 5.4 持平或领先。模型已上线但闭源,API 仅限合作伙伴,计划后续开源。短板仍在编程和长时自主 Agent 任务。

媒体InfoQ 中文2026/04/03 18:005860
评测体系驱动模型进化
支付迁移应用案例解析

文章介绍评测驱动进化在AI代理中的应用,通过支付迁移案例展示如何构建评估体系并优化模型。核心亮点包括多阶段评测框架、实时数据反馈机制和强化学习算法,为AI技术落地提供工程化方法论。

媒体InfoQ 中文2026/04/02 18:004790
LLM驱动Agent决策优化
异步通信提升系统效率

淘宝闪购通过AI Agent平台化建设,实现基于LLM的智能决策系统。采用强化学习优化业务流程,结合多模态数据处理技术,通过异步通信、模型压缩等手段提升系统效率。核心亮点在于构建可扩展的Agent架构,解决高并发场景下的性能瓶颈,最终实现响应速度提升40%和推理成本降低60%的技术突破。

社区Hacker News2026/03/30 15:344660
HJB方程是强化学习的核心数学工具
扩散模型在生成任务中表现突出

哈密尔顿-雅可比-贝尔曼方程是强化学习的核心工具,用于求解最优策略。扩散模型作为生成模型的重要方向,与HJB方程结合可能带来新应用。文章简要介绍了两者的基本概念及其潜在关联,具有一定的技术参考价值。

媒体Gino Notes2026/03/28 08:006830
LLM将向智能体式思考演进
Karpathy提出20/80资源分配模式

本期周刊聚焦AI领域中的智能体式思考与资源优化技术,涵盖LLM的自主决策能力、Karpathy的20/80资源分配模式、Anthropic的多智能体架构突破以及Cursor的实时强化学习方法。文章指出,模型推理能力提升后,实际任务执行效率将成为AI竞争的核心。

官方Microsoft Research Blog2026/03/27 03:025860
基于AI2-THOR模拟环境
评估视觉规划能力

AsgardBench是基于AI2-THOR的开源基准测试工具,用于评估AI代理在视觉交互规划任务中的表现。通过模拟真实场景,测试AI系统如何利用视觉信息动态调整计划,揭示视觉感知对规划成功率的关键作用及现有模型在复杂环境中的局限性,为提升AI视觉交互能力提供研究方向。

媒体InfoQ 中文2026/03/25 02:007880
Claude AI推出‘接管电脑’功能
AI Agent可执行复杂计算机任务

Claude AI推出‘接管电脑’功能,实现AI Agent对计算机操作的自动化控制。该功能基于多模态能力和强化学习,可执行文件管理、网页浏览等任务,展示了AI在实际应用中的潜力,引发对AI Agent市场竞争的讨论。

媒体Latent Space2026/03/24 14:507860
Dreamer加入Meta超级智能实验室
强化AI自主决策与任务执行能力

Meta将Dreamer纳入超级智能实验室,回顾其9个月的技术进展。项目涵盖AI助手能力扩展、自我改进代理、RL训练方法统一、文档解析与检索基础设施提升,以及多个模型和产品的发布。核心亮点在于强化AI自主决策与任务执行能力,推动AI技术在实际场景中的应用。

媒体AINews2026/03/24 13:445840
Anthropic推出多智能体协作框架
设计工具集成AI编辑功能

本文汇总AI代理领域最新技术进展,涵盖多智能体协作框架、AI编辑工具集成、API兼容性升级、强化学习环境扩展及基准测试突破。重点展示Anthropic、Figma、Nous、AI2、GenReasoning和Zhipu在基础设施优化、工具创新与生态构建方面的成果,凸显AI代理技术向实用化和标准化发展的趋势。

媒体InfoQ 中文2026/03/23 23:006860
构建大模型对话评估闭环
提升客服机器人测试效率

DoorDash构建了一个基于大模型的对话模拟与评估闭环,用于客服机器人的规模化测试。该系统通过生成模拟对话数据,评估AI客服性能,并实现自动化优化。核心亮点包括高效的数据生成、多维度评估指标和闭环反馈机制,有助于提升用户体验并降低成本。

媒体AINews2026/03/23 13:446870
Anthropic发布新工具扩展代理能力
Meta推动代理自我优化与效率提升

Anthropic推出Claude Cowork和Claude Code,扩展AI代理的桌面控制能力。多代理框架Hermes Agent等提升协作效率,但子代理仍存缺陷。Meta AI的Hyperagents/DGM-H技术融合RL与LM实现自我优化,WebArena-Infinity降低环境构建成本,推动代理技术向实用化发展。

媒体量子位2026/03/22 15:173930
校准置信度提升推理可靠性
CA-TTS框架实现多阶段验证

浙江大学团队提出CA-TTS框架,通过校准置信度和动态资源分配,显著提升多模态模型在视觉模糊情况下的推理准确率和可靠性。该方法在多个基准测试中表现优异,尤其在Math-Vision任务中提升近一倍,具有重要的技术价值。

媒体AINews2026/03/20 13:445630
Composer 2 使用 Kimi K2.5,引发归属与许可争议
二次微调、强化学习提升模型领域适配性

Cursor Composer 2 基于开源模型 Kimi K2.5,因模型归属与许可证问题引发讨论。文章指出,二次微调和强化学习是提升模型适配性的主流手段,强调标注来源、合规许可的重要性。同时,Claude Code 与第三方工具及通讯平台的集成、LangChain 向多智能体系统的演进,展示了 AI 产品差异化的最新趋势。

媒体InfoQ 中文2026/03/13 02:056850
AReaL是强化学习与智能体开发框架
提供模块化设计和实验支持

AReaL是一个强化学习与智能体开发框架,提供模块化设计和高效实验支持。其核心亮点包括环境接口、策略优化模块和评估工具,适用于实际项目中的奖励函数设置、状态空间处理和多智能体协作。该框架对开发者和研究人员具有重要参考价值。