Build Your Own ChatGPT

Sentencepiece Practice

Tokenization: BPE, WordPiece, SentencePiece·Bloom 4

Chapitre 1 · Leçon 3

SentencePiece en pratique

Situation

Tu as compris la théorie de BPE, WordPiece et Unigram. Maintenant tu veux entraîner ton propre tokenizer sur un corpus français, le sauvegarder, et l'utiliser pour préparer les données de ton futur LLM. Quels outils utiliser ? Quelle taille de vocabulaire choisir ? Comment gérer les tokens spéciaux ? Cette leçon est 100% pratique.

Key Idea

En pratique, tu as trois bibliothèques principales pour la tokenization : tokenizers (HuggingFace, Rust, ultra-rapide), sentencepiece (Google, C++, utilisé par LLaMA/T5), et tiktoken (OpenAI, Rust, pour les modèles GPT). Chacune a ses forces.

Key Idea

La taille du vocabulaire est un hyperparamètre critique : trop petit (8K) = séquences longues et lentes, trop grand (256K) = matrice d'embedding énorme et tokens rares sous-entraînés. Le sweet spot pour un LLM monolingue est 32K–50K, pour un multilingue 64K–128K.

Les trois bibliothèques de tokenization

Situation

Tu cherches « tokenizer python » sur Google et tu trouves trois bibliothèques différentes. Laquelle choisir ? Ça dépend de ton cas d'usage.

Bibliothèque	Auteur	Langage	Algorithmes	Utilisé par
`tokenizers`	HuggingFace	Rust (bindings Python)	BPE, WordPiece, Unigram	Tout l'écosystème HF
`sentencepiece`	Google	C++ (bindings Python)	BPE, Unigram	LLaMA 1/2, T5, ALBERT, mBART
`tiktoken`	OpenAI	Rust (bindings Python)	BPE (byte-level)	GPT-2, GPT-3, GPT-4, Claude

Build Your Own ChatGPT

Sentencepiece Practice

Tokenization: BPE, WordPiece, SentencePiece·Bloom 4

Chapitre 1 · Leçon 3

SentencePiece en pratique

Situation

Key Idea

Les trois bibliothèques de tokenization

Situation

Tu cherches « tokenizer python » sur Google et tu trouves trois bibliothèques différentes. Laquelle choisir ? Ça dépend de ton cas d'usage.

Bibliothèque	Auteur	Langage	Algorithmes	Utilisé par
`tokenizers`	HuggingFace	Rust (bindings Python)	BPE, WordPiece, Unigram	Tout l'écosystème HF
`sentencepiece`	Google	C++ (bindings Python)	BPE, Unigram	LLaMA 1/2, T5, ALBERT, mBART
`tiktoken`	OpenAI	Rust (bindings Python)	BPE (byte-level)	GPT-2, GPT-3, GPT-4, Claude

Concept	Description
`tokenizers` (HuggingFace)	Bibliothèque Rust rapide. BPE, WordPiece, Unigram. Standard de l'industrie
`sentencepiece` (Google)	C++. Pas de pré-tokenization par espaces. Utilisé par LLaMA 1/2, T5
`tiktoken` (OpenAI)	Rust. BPE byte-level. Encodages officiels GPT-2/3/4/4o
Vocab 32K	Sweet spot pour modèles monolingues ou petits modèles
Vocab 100K-128K	Sweet spot pour modèles multilingues ou grands modèles
Tokens spéciaux	`<\|endoftext\|>`, `<s>`, `</s>`, `[PAD]` — essentiels pour le contrôle
Fertilité	Métrique clé : tokens/mot. Plus bas = meilleur
Compression	Ratio octets/tokens. Plus haut = meilleur

Sentencepiece Practice

SentencePiece en pratique

Les trois bibliothèques de tokenization

Sentencepiece Practice

SentencePiece en pratique

Les trois bibliothèques de tokenization

Entraîner un tokenizer BPE avec HuggingFace

Entraîner avec SentencePiece (style LLaMA)

tiktoken : le tokenizer d'OpenAI

Choisir la taille du vocabulaire

Tokens spéciaux : les configurer correctement

Évaluer la qualité d'un tokenizer

Normalisation et pré-traitement du corpus

Pipeline complet : du corpus au tokenizer prêt à l'emploi

Références