Build Your Own ChatGPT

Bpe Algorithm

Tokenization: BPE, WordPiece, SentencePiece·Bloom 3

Chapitre 1 · Leçon 2

L'algorithme BPE pas à pas

Situation

Tu sais maintenant que la tokenization par sous-mots est la meilleure approche. Mais comment ça marche concrètement ? Comment un algorithme décide-t-il que « ing » devrait être un token, mais pas « inz » ? Comment construit-on un vocabulaire de 50 000 tokens à partir d'un corpus de texte ? L'algorithme Byte Pair Encoding (BPE) est la réponse — et tu vas l'implémenter from scratch dans cette leçon.

Key Idea

BPE est un algorithme glouton bottom-up : on part des caractères individuels (ou octets), on compte les paires adjacentes les plus fréquentes, on fusionne la paire gagnante en un nouveau token, et on répète jusqu'à atteindre la taille de vocabulaire souhaitée.

Key Idea

WordPiece et Unigram sont deux alternatives à BPE. WordPiece maximise la vraisemblance au lieu de la fréquence brute. Unigram part d'un grand vocabulaire et élague (top-down), à l'inverse de BPE (bottom-up).

L'intuition derrière BPE

Situation

Tu as un corpus de texte anglais. Tu remarques que la séquence t + h apparaît des milliers de fois (dans « the », « that », « this », « with »…). Si tu crées un token th, tu réduis la longueur de toutes ces séquences. Puis tu remarques que th + e est très fréquent — tu crées the. En répétant ce processus, tu construis un vocabulaire qui capture les patterns statistiques de ta langue.

Byte Pair Encoding (BPE)

Algorithme de compression de données adapté à la tokenization NLP par Sennrich et al. (2016). Il construit itérativement un vocabulaire en fusionnant les paires de tokens adjacentes les plus fréquentes dans le corpus d'entraînement.

Build Your Own ChatGPT

Bpe Algorithm

Tokenization: BPE, WordPiece, SentencePiece·Bloom 3

Chapitre 1 · Leçon 2

L'algorithme BPE pas à pas

Situation

Key Idea

L'intuition derrière BPE

Situation

Byte Pair Encoding (BPE)

Critère	BPE	WordPiece	Unigram
Direction	Bottom-up	Bottom-up	Top-down
Critère de fusion/élagage	Fréquence brute	Vraisemblance (mutual info)	Impact sur la loss
Déterministe ?	Oui	Oui	Non (peut sampler)
Marqueur de sous-mot	Espace en préfixe ( `world`)	`##` en préfixe (`##ing`)	`▁` en préfixe (`▁world`)
Modèles	GPT-2/3/4, LLaMA, Mistral	BERT, DistilBERT, Electra	T5, ALBERT, XLNet, mBART
Bibliothèque	tiktoken, HuggingFace	HuggingFace	SentencePiece
Vitesse d'entraînement	Rapide	Moyen	Lent
Gestion OOV	Byte-level = jamais d'OOV	Possible `[UNK]`	Possible `[UNK]`
Régularisation	Non native	Non native	BPE-dropout / sampling natif

Concept	Description
BPE	Fusionne itérativement les paires de tokens les plus fréquentes (bottom-up)
Règles de fusion	Liste ordonnée de paires → nouveau token. Appliquées dans l'ordre lors de l'encodage
Pré-tokenization	Découpage grossier avant BPE pour respecter les frontières de mots
WordPiece	Variante de BPE qui maximise la vraisemblance au lieu de la fréquence
Unigram	Approche top-down : part d'un grand vocab et élague les tokens les moins utiles
BPE-dropout	Régularisation par omission aléatoire de fusions pendant l'entraînement
Byte-level BPE	BPE appliqué aux octets UTF-8 (vocabulaire de base = 256)

Bpe Algorithm

L'algorithme BPE pas à pas

L'intuition derrière BPE

Bpe Algorithm

L'algorithme BPE pas à pas

L'intuition derrière BPE

BPE à la main : un exemple complet

Implémentation Python from scratch

La pré-tokenization : pourquoi GPT-2 utilise une regex

WordPiece : la variante de BERT

Unigram : l'approche top-down

Tableau comparatif : BPE vs WordPiece vs Unigram

BPE-dropout : régulariser via la tokenization

Entraîner BPE sur un vrai corpus

Références