PaddleOCR-VL 开发场景代码 OCR 微调模型
本模型基于 PaddleOCR-VL-1.6 微调,面向开发场景 OCR,重点识别 IDE 截图、终端输出、Traceback、配置文件、Git diff、文档代码块、API 表格、小字号和暗色主题等开发相关图片中的可见文字。
在线 Demo
🤗 在线试用(HF Space):上传开发场景截图即可在线体验,无需本地部署。
HF Space 使用免费 CPU 硬件,仅作为可访问演示入口;首次加载需拉取模型权重,单图可能需要 1-5 分钟。benchmark 分数和正式复现口径以本地 GPU / OpenAI-compatible 接口结果为准。
推荐提示词:
<image>OCR:
模型信息
- 基础模型:PaddleOCR-VL-1.6
- 微调方式:LoRA 微调后导出合并模型
- 任务类型:开发场景代码 OCR / image-to-text
- 当前版本:v6 提交候选版本
- 主提示词:
<image>OCR: - 主 benchmark:benchmark v4 固定 100 题,
final_score_v4=61.08
推荐推理参数
max_tokens=4096
repetition_penalty=1.08
temperature=0
模型目标是只输出图片中可见文字,尽量保留代码符号、大小写、缩进、换行、结构和阅读顺序。它不是代码修复或代码生成模型,不应补全图片中不可见的内容。
数据与评估
当前初赛提交口径下,训练索引 train.json 为 2026-06-18 后的快照,共 1102 条样本(941 PNG / 161 JPG),平均目标文本长度 1153.7 字符。该规模只是当前提交快照,不代表最终成品或后续决赛版本;训练数据仍可能继续清洗、补充或回滚。数据主要覆盖:
- IDE / 编辑器代码截图
- 终端、Shell、PowerShell 命令和输出
- Traceback、报错日志和诊断信息
- YAML / JSON / TOML / INI 配置文件
- Git diff、patch 和 PR 页面
- Markdown / 文档代码块
- API 表格、参数表和字段说明
- 小字号、压缩、暗色主题、拍屏等困难样本
当前 benchmark v4 使用 100 题冻结测试集,按 8 类开发 OCR 场景加权汇总。测试集不参与训练和训练期调参。
阶段性 v4 结果:
| 模型 | 提示词 | final_score_v4 | 平均 LLM | 平均 NED | 严格可用率 | 完成率 | 安全分 |
|---|---|---|---|---|---|---|---|
| PaddleOCR-VL-1.6 微调 v6 | <image>OCR: |
61.08 | 74.05 | 0.1360 | 47.00% | 96.00% | 79.00% |
该分数是阶段性回归结果,最终比赛评审以官方规则和提交材料为准。
局限性
模型在以下场景仍可能出错:
- 极小或模糊文本
- 复杂 API 表格
- 深层嵌套配置文件
- 长 Traceback 输出
- 多区域混排截图
- 罕见符号、代码标点和缩进敏感内容
模型输出应只作为 OCR 转写结果使用,不能视为代码语义理解或代码正确性保证。
致谢
本模型为 PaddleOCR 全球衍生模型挑战赛构建,基础能力来自 PaddleOCR-VL 系列模型。
- Downloads last month
- 119
Model tree for snnh/paddleocr_vl_code_ocr
Base model
baidu/ERNIE-4.5-0.3B-Paddle Finetuned
PaddlePaddle/PaddleOCR-VL-1.5 Finetuned
PaddlePaddle/PaddleOCR-VL-1.6