Build Your Own ChatGPT

Why Tokenization

Tokenization: BPE, WordPiece, SentencePiece·Bloom 2

Chapitre 1 · Leçon 1

Pourquoi la tokenization

Situation

Tu ouvres Python, tu tapes "Bonjour le monde", et tu te dis : « Mon modèle va comprendre ça, non ? » Sauf que non. Un réseau de neurones ne voit pas de lettres, pas de mots, pas de phrases. Il voit des nombres. Des tenseurs de flottants. Alors comment passer d'une chaîne de caractères — un truc fondamentalement humain — à une séquence de nombres qu'un GPU peut multiplier ? C'est exactement le problème que la tokenization résout. Et si tu te trompes à cette étape, tout le reste de ton LLM s'effondre.

Key Idea

La tokenization est le pont entre le texte humain et les nombres que manipule un réseau de neurones. Le choix de la granularité (caractère, mot, sous-mot) détermine la taille du vocabulaire, la capacité de généralisation, et la performance du modèle.

Key Idea

Il n'existe pas de tokenization « parfaite » — chaque approche est un compromis entre taille du vocabulaire, longueur des séquences, et couverture des langues.

Pourquoi un ordinateur ne peut pas « lire »

Situation

Imagine que tu donnes la phrase « Le chat dort » à un programme C. Ce programme voit : 4C 65 20 63 68 61 74 20 64 6F 72 74 — des octets hexadécimaux. Pas de sémantique, pas de grammaire. Juste des nombres bruts. Comment un réseau de neurones peut-il apprendre que « chat » et « chaton » sont liés si tout ce qu'il voit, ce sont des octets arbitraires ?

Un ordinateur stocke du texte sous forme de séquences d'octets. Chaque caractère est encodé selon un standard (ASCII, UTF-8, UTF-16…). Mais ces octets n'ont aucune structure sémantique.

Tokenization

Build Your Own ChatGPT

Why Tokenization

Tokenization: BPE, WordPiece, SentencePiece·Bloom 2

Chapitre 1 · Leçon 1

Pourquoi la tokenization

Situation

Key Idea

Il n'existe pas de tokenization « parfaite » — chaque approche est un compromis entre taille du vocabulaire, longueur des séquences, et couverture des langues.

Pourquoi un ordinateur ne peut pas « lire »

Situation

Un ordinateur stocke du texte sous forme de séquences d'octets. Chaque caractère est encodé selon un standard (ASCII, UTF-8, UTF-16…). Mais ces octets n'ont aucune structure sémantique.

Tokenization

Algorithme	Utilisé par	Approche
BPE (Byte Pair Encoding)	GPT-2, GPT-3, GPT-4, LLaMA	Bottom-up : fusionne les paires les plus fréquentes
WordPiece	BERT, DistilBERT	Similaire à BPE mais maximise la vraisemblance
Unigram	T5, ALBERT, XLNet (via SentencePiece)	Top-down : part d'un grand vocabulaire et élague

Modèle	Vocab size	Algorithme
GPT-2	50 257	BPE (byte-level)
GPT-3/3.5	50 257	BPE (byte-level)
GPT-4	~100 000	BPE (cl100k_base)
BERT	30 522	WordPiece
LLaMA 1/2	32 000	BPE (SentencePiece)
LLaMA 3	128 256	BPE (tiktoken)
Mistral 7B	32 000	BPE (SentencePiece)
T5	32 100	Unigram (SentencePiece)

Concept	Description
Tokenization	Découpage du texte en unités discrètes (tokens) pour un modèle
Character-level	1 caractère = 1 token. Petit vocab, longues séquences
Word-level	1 mot = 1 token. Grand vocab, problème OOV
Subword (BPE, WordPiece, Unigram)	Compromis optimal. Mots fréquents entiers, mots rares décomposés
Byte-level BPE	Travaille sur les octets UTF-8. Zéro `[UNK]`. Utilisé par GPT-2/3/4
Taille du vocabulaire	Compromis mémoire vs longueur de séquence. 32K–128K typique
Fertilité	Ratio tokens/mots. Varie selon la langue
UTF-8	Encodage Unicode en 1-4 octets. Base du byte-level BPE

Why Tokenization

Pourquoi la tokenization

Pourquoi un ordinateur ne peut pas « lire »

Why Tokenization

Pourquoi la tokenization

Pourquoi un ordinateur ne peut pas « lire »

L'approche naïve : tokenization par caractère

L'approche classique : tokenization par mot

Le compromis : tokenization par sous-mot (subword)

Le compromis de la taille du vocabulaire

Unicode et UTF-8 : le socle invisible

Comment fonctionne le tokenizer de GPT-2

Visualiser la tokenization

Outils en ligne pour explorer la tokenization

Le problème de la fertilité et des nombres

Références