merlin-tokenizer-v0

BPE tokenizer for Merlin, trained on Python, Bash, Markdown, Stack Exchange Q&A, GitHub commits/issues, and tldr-pages.

Vocab

from tokenizers import Tokenizer
tok = Tokenizer.from_file("tokenizer.json")
ids = tok.encode("def hello(): pass").ids

Note: Will be retrained after agentic trace generation. This is v0 — trained on pretraining corpus only.

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support