Road to AMI Labs

Compression

Théorie de l'information·Bloom 3

Chapitre 1 · Leçon 12

Compression et information bottleneck

Le problème : pourquoi prédire dans l'espace latent plutôt que dans l'espace des pixels ?

MAE (Masked Autoencoder) prédit les pixels manquants. I-JEPA prédit les embeddings manquants. Les deux font de la "prédiction de patches masqués", mais I-JEPA donne de meilleures représentations. Pourquoi ? Parce que prédire les pixels force le modèle à encoder tout — y compris le bruit, les textures exactes, les détails non-informatifs. Prédire dans l'espace latent permet de compresser — ne garder que l'information pertinente. C'est le principe de l'information bottleneck.

Key Idea

La compression est au cœur de l'apprentissage de représentations. Un bon embedding compresse l'entrée en ne gardant que l'information pertinente pour les tâches downstream. La théorie rate-distortion quantifie le compromis compression/fidélité, et l'information bottleneck formalise ce que "pertinent" veut dire. C'est l'argument théorique central pour les architectures JEPA.

Rate-distortion : le compromis fondamental

Combien de bits pour représenter une image ?

Une image ImageNet 224×224×3 en uint8 fait 150,528 octets. Un embedding I-JEPA de dimension 1280 en float32 fait 5,120 octets — 30× moins. Mais l'embedding ne permet pas de reconstruire l'image exactement. Il y a un compromis : plus tu compresses, plus tu perds de détails. La théorie rate-distortion quantifie ce compromis.

Compression et information bottleneck

Le problème : pourquoi prédire dans l'espace latent plutôt que dans l'espace des pixels ?

Key Idea

Rate-distortion : le compromis fondamental

Combien de bits pour représenter une image ?

$\beta$	Comportement
$\beta \to 0$	Compression maximale — $Z$ ne contient rien
$\beta$ petit	Forte compression — $Z$ ne garde que l'essentiel
$\beta$ grand	Faible compression — $Z$ garde presque tout
$\beta \to \infty$	Pas de compression — $Z \approx X$

	Lossless	Lossy
Reconstruction	Exacte	Approximative
Borne	$R \geq H(X)$	$R \geq R(D)$
Exemples classiques	PNG, ZIP, Huffman	JPEG, MP3, H.264
Exemples DL	Autoencoder parfait (impossible en pratique)	VAE, VQ-VAE, embeddings SSL
Pertinence pour JEPA	❌	✅

	MAE (pixel)	I-JEPA (latent)
Espace de prédiction	$\mathbb{R}^{16 \times 16 \times 3}$ par patch	$\mathbb{R}^{1280}$ par patch
Information à prédire	Tout (texture, couleur, bruit)	Sémantique seulement
Multimodalité	Problématique (flou)	Moins problématique
Linear probe ImageNet	68% (ViT-H)	77% (ViT-H)

Méthode	Type de compression	Espace latent	Taux
Autoencoder	Lossy, continu	$\mathbb{R}^d$	Variable
VAE	Lossy, continu + prior	$\mathcal{N}(\mu, \sigma^2)$	Contrôlé par $\beta$
VQ-VAE	Lossy, discret	$\{1, \ldots, K\}^N$	$N \log_2 K$ bits
I-JEPA	Lossy, continu (pas de décodeur)	$\mathbb{R}^{1280}$	Implicite

Paradigme	Objectif	Lien avec la compression
Supervisé	Minimiser $H(Y	\hat)$
Génératif	Minimiser $-\log p_\theta(X)$	Compresser $X$ directement
Contrastif	Maximiser $I(Z_1; Z_2)$	Compresser en gardant l'info partagée
JEPA	Minimiser $\\|Z_{\text{pred}} - Z_{\text{target}}\\|^2$	Compresser en gardant l'info prédictible
LLM	Minimiser la perplexité	Compresser le texte

Compression

Compression et information bottleneck

Rate-distortion : le compromis fondamental

Compression

Compression et information bottleneck

Rate-distortion : le compromis fondamental

L'information bottleneck : compresser intelligemment

Lossy vs lossless : deux paradigmes

Minimum Description Length : la compression comme apprentissage

Pourquoi latent > pixel pour la prédiction

VQ-VAE et la compression discrète

Application : la compression comme principe unificateur

Références

Concept	Essentiel à retenir
Rate-distortion	$R(D)$ — compromis bits vs fidélité
Information bottleneck	$\min I(Z;X) - \beta I(Z;Y)$ — compresser en gardant le pertinent
Lossy vs lossless	Embeddings SSL = compression lossy extrême
MDL	Meilleur modèle = meilleure compression totale
Latent > pixel	Prédire dans l'espace latent = ignorer le bruit automatiquement
VQ-VAE	Compression discrète — base de DALL-E
Compression = intelligence	Comprendre = compresser efficacement