SGOCR：基于空间信息的 OCR 数据集构建流水线与 V1 数据集发布

大家好！

我长期致力于小型但高效的视觉语言模型（VLM）研发，发现现有视觉数据集普遍缺乏文本‑图像空间关联的标注，导致模型难以学习文字在图像中的位置与语义关系。为此，我用两周时间实现了 SGOCR——一个开源的流水线，用于生成带有空间信息的 OCR 问答对（VQA pairs），并提供丰富的元数据，支持多种 VLM 训练方式。

代码与数据

流水线代码：https://github.com/cothogonal/sgocr-dataset-pipeline
V1 数据集：https://huggingface.co/datasets/dreeseaw/SGOCR

系统概览

文本提取阶段：采用三种 OCR 模型（Parseq）进行冗余识别，最终选用 Nvidia 的 nemotron-ocr-v2 作为主模型。
文本‑图像关联阶段：分别实验了 GroundingDINO、Florence 2 与 SAM 3.1，比较它们在定位锚点（anchor）和生成空间标注上的表现。最终使用 Gemma‑4 辅助发现锚点并完成标注。
质量验证阶段：利用 Gemini 2.5‑flash 作为教师模型，对生成的 VQA 对进行语义一致性评估；辅助工具包括 Gemini 3.1 Pro 与 ChatGPT 5.3 Codex。
人工审核与自动化：构建了人工审核界面，记录接受、拒绝或待定的结果。基于这些反馈，引入“代理循环”（ loop），自动生成质量评分并驱动后续步骤的自动化。
超参数优化：参考 Karpathy 的自动研究方法，改进为基于 sweep‑based 的搜索策略，既能全局观察系统性能，又避免因微小差异导致优秀方案被提前淘汰。

亮点

完整的多模型协同流水线，覆盖 OCR、空间定位、语义验证三大环节。
高度结构化的注释格式，使得下游 VLM 能直接利用空间坐标进行视觉‑语言对齐。
开源代码与数据集均已发布，便于社区复现与二次开发。

如果你也在构建 VLM，或有类似的空间文本需求，欢迎交流合作！

SGOCR：基于空间信息的 OCR 数据集构建流水线与 V1 数据集发布

摘要

正文

标签