专题：video-processing

按该标签聚合的大模型资讯列表（自动分类与标签提取）。共 5 篇文章。

WebCodecs API：浏览器原生视频处理的底层技术解析

原文

媒体freeCodeCamp2026/04/09 04:355940

• 浏览器原生视频处理API解析

• 支持编解码混合分解操作

WebCodecs API是现代浏览器的视频处理底层接口，允许开发者直接操控编解码器。文章详解其编码解码机制、容器操作及实际应用，涵盖视频转换工具开发与生产环境优化要点，为前端视频处理提供技术参考。

WebCodecs 视频处理浏览器API 混合（muxing）分解（demuxing）

GroundedPlanBench：融合空间感知的机器人任务规划框架

原文

官方Microsoft Research Blog2026/03/27 00:035850

• 集成规划与空间定位

• 处理长时序复杂任务

GroundedPlanBench是微软提出的机器人任务规划框架，通过整合空间信息与视觉语言模型，解决长时序复杂任务中的规划与定位分离问题。该框架利用DROID数据集构建基准，采用显式/隐式指令双模式，结合SAM3模型实现精准空间定位。实验表明其在真实场景中提升任务成功率，尤其擅长处理多步骤和隐式指令任务，为机器人研究提供新方法。

多模态语言模型视频分割机器人规划基准测试视频到空间规划