Road to AMI Labs
Compression
Chapitre 1 · Leçon 12
Compression et information bottleneck
Le problème : pourquoi prédire dans l'espace latent plutôt que dans l'espace des pixels ?
MAE (Masked Autoencoder) prédit les pixels manquants. I-JEPA prédit les embeddings manquants. Les deux font de la "prédiction de patches masqués", mais I-JEPA donne de meilleures représentations. Pourquoi ? Parce que prédire les pixels force le modèle à encoder tout — y compris le bruit, les textures exactes, les détails non-informatifs. Prédire dans l'espace latent permet de compresser — ne garder que l'information pertinente. C'est le principe de l'information bottleneck.
Key Idea
La compression est au cœur de l'apprentissage de représentations. Un bon embedding compresse l'entrée en ne gardant que l'information pertinente pour les tâches downstream. La théorie rate-distortion quantifie le compromis compression/fidélité, et l'information bottleneck formalise ce que "pertinent" veut dire. C'est l'argument théorique central pour les architectures JEPA.
Rate-distortion : le compromis fondamental
Combien de bits pour représenter une image ?
Une image ImageNet 224×224×3 en uint8 fait 150,528 octets. Un embedding I-JEPA de dimension 1280 en float32 fait 5,120 octets — 30× moins. Mais l'embedding ne permet pas de reconstruire l'image exactement. Il y a un compromis : plus tu compresses, plus tu perds de détails. La théorie rate-distortion quantifie ce compromis.