大模型资讯聚合站

首页/详情

云知声 U1‑OCR 3.0：全链路结构精修架构升级 + Token 计费 API 开放

量子位2026/04/21 12:50机翻/自动摘要/自动分类

0 阅读

内容评分

技术含量

8/10

营销水分

5/10

摘要

云知声推出工业级文档大模型 U1‑OCR，完成架构升级并在 Token Hub 开放全量 API。核心通过结构精修、双向空间注意力、保留导向监督和难度感知顺序约束，实现检测‑解析一体化，显著提升复杂版面结构与阅读顺序的准确性。实验在 OmniDocBench 与 D4LA 两大权威数据集上均获最高 F1 与最优阅读顺序指标，支持金融、医疗等行业低成本部署文档智能。

正文

2026 年 2 月 26 日，云知声发布工业级文档智能 Unisound U1‑OCR，并在随后完成底层架构重构，推出系列模型与全量 API。新模型在 Hub 平台上以标准化接口提供，采用计费，降低企业接入成本。

核心技术

结构精修层：在检测器输出后加入轻量级精修模块，统一完成定位修正、实例保留与阅读顺序恢复，取代传统 NMS+独立排序的拆分流程。
双向空间位置引导注意力：在精修阶段建模候选框之间的空间关系与全局版面信息，提升多栏、图文混排等复杂布局的解析稳定性。
保留导向监督：通过学习候选框竞争关系决定保留，而非固定 IoU 阈值，避免误删高质量框。
难度感知顺序约束：对阅读顺序引入难度加权，强化跨栏、嵌套等区域的排序学习。

实验验证

在 OmniDocBench 上 F1=96.23，领先 PP‑DocLayoutV3（96.03）等；在 D4LA 上 F1=93.93，居榜首。
阅读顺序指标 Read Order Edit 达 0.024，显著优于 Youtu‑Parsing（0.026）和其他基线。

业务价值 文档解析不再局限于文字识别，而是实现结构理解与顺序恢复，支撑信息抽取、检索、问答等下游任务。API 的一键调用与计费模式，使金融、医疗、教育、交通等行业能够低成本部署高精度文档智能。

资源

API 入口：https://maas.unisound.com/
论文：https://arxiv.org/pdf/2601.07483、https://arxiv.org/pdf/2604.02692
演示视频：云知声 U1‑OCR 文档解析能力演示

标签

注意力机制光学字符识别标准化 API 文档理解结构精修