TupoyCoder — компактная модель для генерации кода

Маленькая модель для генерации Python-кода по инструкции. Карточка содержит только результаты бенчмарков, размер и контекст — без деталей внутреннего устройства.

Характеристики

Параметр	Значение
Параметров	~308M
Размер весов (bf16)	~0.62 ГБ
Макс. контекст	4096 токенов (расширяется до практически неограниченного через sliding-window инференс)
Язык	Python

Результаты бенчмарков (pass@1, исполнение тестов)

Все цифры получены ПРОГОНОМ С ИСПОЛНЕНИЕМ юнит-тестов в песочнице (а не оценкой LLM-судьёй). pass@1 при greedy-декодировании.

Бенчмарк	Задач	pass@1
HumanEval	164	5.5%
MBPP (sanitized)	257	7.4%

Сравнение с другими моделями по кодингу

Публичные ориентиры рядом по размеру/классу (HumanEval / MBPP, pass@1). Наши строки выделены жирным и измерены этим же скриптом.

Модель	Параметров	HumanEval	MBPP
TupoyCoder (ours)	308M	5.5	7.4
Salesforce CodeGen-350M-mono	350M	12.8	—
Qwen2.5-Coder-0.5B-Instruct	0.5B	~30	~40
TinyLlama-1.1B	1.1B	~10	~15
Phi-1 (code)	1.3B	50.6	55.5
DeepSeek-Coder-1.3B-Instruct	1.3B	65.2	61.6
StarCoder2-3B	3B	31.7	47.0
GPT-4o-mini (closed)	—	87.2	82.8

Agentic-бенчмарки (SWE-bench, Aider) — для контекста

Agentic-бенчмарки (SWE-bench Verified/Pro, Aider) измеряют починку реальных репозиториев в цикле «агент + инструменты + исполнение». Это другой класс задач и другой масштаб моделей (лидеры — большие закрытые/открытые модели на десятки-сотни миллиардов параметров). Для модели такого размера без агентного харнеса это не применимо и здесь не замеряется — приведено лишь как ориентир ландшафта.

Бенчмарк	Тип	Наш результат
SWE-bench Verified	agentic (репо-починка)	N/A (вне масштаба)
Aider	agentic (diff-редактирование)	N/A (вне масштаба)

Карточка сгенерирована автоматически скриптом прогона бенчмарков.

Downloads last month: -; Downloads are not tracked for this model. How to track