TupoyCoder — компактная модель для генерации кода

Маленькая модель для генерации Python-кода по инструкции. Карточка содержит только результаты бенчмарков, размер и контекст — без деталей внутреннего устройства.

Характеристики

Параметр Значение
Параметров ~308M
Размер весов (bf16) ~0.62 ГБ
Макс. контекст 4096 токенов (расширяется до практически неограниченного через sliding-window инференс)
Язык Python

Результаты бенчмарков (pass@1, исполнение тестов)

Все цифры получены ПРОГОНОМ С ИСПОЛНЕНИЕМ юнит-тестов в песочнице (а не оценкой LLM-судьёй). pass@1 при greedy-декодировании.

Бенчмарк Задач pass@1
HumanEval 164 5.5%
MBPP (sanitized) 257 7.4%

Сравнение с другими моделями по кодингу

Публичные ориентиры рядом по размеру/классу (HumanEval / MBPP, pass@1). Наши строки выделены жирным и измерены этим же скриптом.

Модель Параметров HumanEval MBPP
TupoyCoder (ours) 308M 5.5 7.4
Salesforce CodeGen-350M-mono 350M 12.8
Qwen2.5-Coder-0.5B-Instruct 0.5B ~30 ~40
TinyLlama-1.1B 1.1B ~10 ~15
Phi-1 (code) 1.3B 50.6 55.5
DeepSeek-Coder-1.3B-Instruct 1.3B 65.2 61.6
StarCoder2-3B 3B 31.7 47.0
GPT-4o-mini (closed) 87.2 82.8

Agentic-бенчмарки (SWE-bench, Aider) — для контекста

Agentic-бенчмарки (SWE-bench Verified/Pro, Aider) измеряют починку реальных репозиториев в цикле «агент + инструменты + исполнение». Это другой класс задач и другой масштаб моделей (лидеры — большие закрытые/открытые модели на десятки-сотни миллиардов параметров). Для модели такого размера без агентного харнеса это не применимо и здесь не замеряется — приведено лишь как ориентир ландшафта.

Бенчмарк Тип Наш результат
SWE-bench Verified agentic (репо-починка) N/A (вне масштаба)
Aider agentic (diff-редактирование) N/A (вне масштаба)

Карточка сгенерирована автоматически скриптом прогона бенчмарков.

Downloads last month

-

Downloads are not tracked for this model. How to track
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support