首页/详情

SGOCR:基于空间信息的 OCR 数据集构建流水线与 V1 数据集发布

r/MachineLearning2026/04/20 11:24机翻/自动摘要/自动分类
0 阅读

摘要

SGOCR 是一个开源的 OCR 数据集构建流水线,专注于生成带空间位置信息的问答对,并提供结构化元数据。系统整合了多种 OCR、定位和验证模型,加入人工审核与 agent loop 自动化,采用 sweep‑based 超参数搜索提升方案筛选效率。V1 数据集已在 HuggingFace 发布,供 VLM 开发者直接使用。

正文

大家好!

我长期致力于小型但高效的视觉语言模型(VLM)研发,发现现有视觉数据集普遍缺乏文本‑图像空间关联的标注,导致模型难以学习文字在图像中的位置与语义关系。为此,我用两周时间实现了 SGOCR——一个开源的流水线,用于生成带有空间信息的 OCR 问答对(VQA pairs),并提供丰富的元数据,支持多种 VLM 训练方式。

代码与数据

  • 流水线代码:https://github.com/cothogonal/sgocr-dataset-pipeline
  • V1 数据集:https://huggingface.co/datasets/dreeseaw/SGOCR

系统概览

  1. 文本提取阶段:采用三种 OCR 模型(Parseq)进行冗余识别,最终选用 Nvidia 的 nemotron-ocr-v2 作为主模型。
  2. 文本‑图像关联阶段:分别实验了 GroundingDINO、Florence 2 与 SAM 3.1,比较它们在定位锚点(anchor)和生成空间标注上的表现。最终使用 Gemma‑4 辅助发现锚点并完成标注。
  3. 质量验证阶段:利用 Gemini 2.5‑flash 作为教师模型,对生成的 VQA 对进行语义一致性评估;辅助工具包括 Gemini 3.1 Pro 与 ChatGPT 5.3 Codex。
  4. 人工审核与自动化:构建了人工审核界面,记录接受、拒绝或待定的结果。基于这些反馈,引入“代理循环”( loop),自动生成质量评分并驱动后续步骤的自动化。
  5. 超参数优化:参考 Karpathy 的自动研究方法,改进为基于 sweep‑based 的搜索策略,既能全局观察系统性能,又避免因微小差异导致优秀方案被提前淘汰。

亮点

  • 完整的多模型协同流水线,覆盖 OCR、空间定位、语义验证三大环节。
  • 高度结构化的注释格式,使得下游 VLM 能直接利用空间坐标进行视觉‑语言对齐。
  • 开源代码与数据集均已发布,便于社区复现与二次开发。

如果你也在构建 VLM,或有类似的空间文本需求,欢迎交流合作!

标签