PaddleOCR-VL 开发场景代码 OCR 微调模型

本模型基于 PaddleOCR-VL-1.6 微调,面向开发场景 OCR,重点识别 IDE 截图、终端输出、Traceback、配置文件、Git diff、文档代码块、API 表格、小字号和暗色主题等开发相关图片中的可见文字。

在线 Demo

🤗 在线试用(HF Space):上传开发场景截图即可在线体验,无需本地部署。

HF Space 使用免费 CPU 硬件,仅作为可访问演示入口;首次加载需拉取模型权重,单图可能需要 1-5 分钟。benchmark 分数和正式复现口径以本地 GPU / OpenAI-compatible 接口结果为准。

推荐提示词:

<image>OCR:

模型信息

  • 基础模型:PaddleOCR-VL-1.6
  • 微调方式:LoRA 微调后导出合并模型
  • 任务类型:开发场景代码 OCR / image-to-text
  • 当前版本:v6 提交候选版本
  • 主提示词:<image>OCR:
  • 主 benchmark:benchmark v4 固定 100 题,final_score_v4=61.08

推荐推理参数

max_tokens=4096
repetition_penalty=1.08
temperature=0

模型目标是只输出图片中可见文字,尽量保留代码符号、大小写、缩进、换行、结构和阅读顺序。它不是代码修复或代码生成模型,不应补全图片中不可见的内容。

数据与评估

当前初赛提交口径下,训练索引 train.json 为 2026-06-18 后的快照,共 1102 条样本(941 PNG / 161 JPG),平均目标文本长度 1153.7 字符。该规模只是当前提交快照,不代表最终成品或后续决赛版本;训练数据仍可能继续清洗、补充或回滚。数据主要覆盖:

  • IDE / 编辑器代码截图
  • 终端、Shell、PowerShell 命令和输出
  • Traceback、报错日志和诊断信息
  • YAML / JSON / TOML / INI 配置文件
  • Git diff、patch 和 PR 页面
  • Markdown / 文档代码块
  • API 表格、参数表和字段说明
  • 小字号、压缩、暗色主题、拍屏等困难样本

当前 benchmark v4 使用 100 题冻结测试集,按 8 类开发 OCR 场景加权汇总。测试集不参与训练和训练期调参。

阶段性 v4 结果:

模型 提示词 final_score_v4 平均 LLM 平均 NED 严格可用率 完成率 安全分
PaddleOCR-VL-1.6 微调 v6 <image>OCR: 61.08 74.05 0.1360 47.00% 96.00% 79.00%

该分数是阶段性回归结果,最终比赛评审以官方规则和提交材料为准。

局限性

模型在以下场景仍可能出错:

  • 极小或模糊文本
  • 复杂 API 表格
  • 深层嵌套配置文件
  • 长 Traceback 输出
  • 多区域混排截图
  • 罕见符号、代码标点和缩进敏感内容

模型输出应只作为 OCR 转写结果使用,不能视为代码语义理解或代码正确性保证。

致谢

本模型为 PaddleOCR 全球衍生模型挑战赛构建,基础能力来自 PaddleOCR-VL 系列模型。

Downloads last month
119
Safetensors
Model size
1.0B params
Tensor type
BF16
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for snnh/paddleocr_vl_code_ocr

Finetuned
(3)
this model

Space using snnh/paddleocr_vl_code_ocr 1