PaddleOCR-VL 开发场景代码 OCR 微调模型

本模型基于 PaddleOCR-VL-1.6 微调，面向开发场景 OCR，重点识别 IDE 截图、终端输出、Traceback、配置文件、Git diff、文档代码块、API 表格、小字号和暗色主题等开发相关图片中的可见文字。

在线 Demo

🤗 在线试用（HF Space）：上传开发场景截图即可在线体验，无需本地部署。

HF Space 使用免费 CPU 硬件，仅作为可访问演示入口；首次加载需拉取模型权重，单图可能需要 1-5 分钟。benchmark 分数和正式复现口径以本地 GPU / OpenAI-compatible 接口结果为准。

推荐提示词：

<image>OCR:

当前初赛提交口径下，训练索引 train.json 为 2026-06-18 后的快照，共 1102 条样本（941 PNG / 161 JPG），平均目标文本长度 1153.7 字符。该规模只是当前提交快照，不代表最终成品或后续决赛版本；训练数据仍可能继续清洗、补充或回滚。数据主要覆盖：

当前 benchmark v4 使用 100 题冻结测试集，按 8 类开发 OCR 场景加权汇总。测试集不参与训练和训练期调参。

阶段性 v4 结果：

模型	提示词	final_score_v4	平均 LLM	平均 NED	严格可用率	完成率	安全分
PaddleOCR-VL-1.6 微调 v6	`<image>OCR:`	61.08	74.05	0.1360	47.00%	96.00%	79.00%

该分数是阶段性回归结果，最终比赛评审以官方规则和提交材料为准。

模型在以下场景仍可能出错：

模型输出应只作为 OCR 转写结果使用，不能视为代码语义理解或代码正确性保证。

本模型为 PaddleOCR 全球衍生模型挑战赛构建，基础能力来自 PaddleOCR-VL 系列模型。

Safetensors

Model size

1.0B params

Tensor type

BF16

Base model

Finetuned

Finetuned

Finetuned

(3)

this model