云知声 U1‑OCR 3.0:全链路结构精修架构升级 + Token 计费 API 开放
量子位2026/04/21 12:50机翻/自动摘要/自动分类
0 阅读
内容评分
技术含量
8/10
营销水分
5/10
摘要
云知声推出工业级文档大模型 U1‑OCR,完成架构升级并在 Token Hub 开放全量 API。核心通过结构精修、双向空间注意力、保留导向监督和难度感知顺序约束,实现检测‑解析一体化,显著提升复杂版面结构与阅读顺序的准确性。实验在 OmniDocBench 与 D4LA 两大权威数据集上均获最高 F1 与最优阅读顺序指标,支持金融、医疗等行业低成本部署文档智能。
正文
2026 年 2 月 26 日,云知声发布工业级文档智能 Unisound U1‑OCR,并在随后完成底层架构重构,推出系列模型与全量 API。新模型在 Hub 平台上以标准化接口提供,采用 计费,降低企业接入成本。
核心技术
- 结构精修层:在检测器输出后加入轻量级精修模块,统一完成定位修正、实例保留与阅读顺序恢复,取代传统 NMS+独立排序的拆分流程。
- 双向空间位置引导注意力:在精修阶段建模候选框之间的空间关系与全局版面信息,提升多栏、图文混排等复杂布局的解析稳定性。
- 保留导向监督:通过学习候选框竞争关系决定保留,而非固定 IoU 阈值,避免误删高质量框。
- 难度感知顺序约束:对阅读顺序引入难度加权,强化跨栏、嵌套等区域的排序学习。
实验验证
- 在 OmniDocBench 上 F1=96.23,领先 PP‑DocLayoutV3(96.03)等;在 D4LA 上 F1=93.93,居榜首。
- 阅读顺序指标 Read Order Edit 达 0.024,显著优于 Youtu‑Parsing(0.026)和其他基线。
业务价值 文档解析不再局限于文字识别,而是实现结构理解与顺序恢复,支撑信息抽取、检索、问答等下游任务。API 的一键调用与 计费模式,使金融、医疗、教育、交通等行业能够低成本部署高精度文档智能。
资源
- API 入口:https://maas.unisound.com/
- 论文:https://arxiv.org/pdf/2601.07483、https://arxiv.org/pdf/2604.02692
- 演示视频:云知声 U1‑OCR 文档解析能力演示