Road to AMI Labs

Distributions

Probabilités & statistiques·Bloom 2

Chapitre 1 · Leçon 4

Distributions de probabilité

Le problème : comment modéliser l'incertitude ?

Tu entraînes un classifieur sur ImageNet. Pour une image de chat, le modèle ne dit pas "c'est un chat" — il dit "chat : 0.87, tigre : 0.08, lynx : 0.03, ...". C'est une distribution de probabilité sur les 1000 classes. Toute la sortie d'un réseau de neurones avec softmax est une distribution. Comprendre les distributions, c'est comprendre ce que le modèle "croit".

Key Idea

Une distribution de probabilité assigne une probabilité à chaque événement possible. En deep learning, les distributions sont partout : sorties softmax (catégorielle), bruit d'augmentation (gaussienne), priors des modèles latents (gaussienne isotrope). Maîtriser les distributions, c'est maîtriser le langage de l'incertitude.

Discret vs continu : deux mondes, mêmes règles

Classifier vs générer

Un classifieur ImageNet produit une distribution discrète sur 1000 classes. Un modèle de diffusion produit une distribution continue sur l'espace des images (chaque pixel peut prendre n'importe quelle valeur réelle). Les outils mathématiques sont légèrement différents, mais l'intuition est la même.

Variable aléatoire discrète

Une variable aléatoire discrète prend des valeurs dans un ensemble fini ou dénombrable . Sa distribution est décrite par une (PMF) : , avec .

Distributions de probabilité

Le problème : comment modéliser l'incertitude ?

Key Idea

Discret vs continu : deux mondes, mêmes règles

Classifier vs générer

Variable aléatoire discrète

Une variable aléatoire discrète prend des valeurs dans un ensemble fini ou dénombrable . Sa distribution est décrite par une (PMF) : , avec .

	Discret	Continu
Distribution	PMF : $P(X = x)$	PDF : $f(x)$
Probabilité d'un point	$P(X = x) \geq 0$	$P(X = x) = 0$ !
Probabilité d'un intervalle	$\sum_{x \in A} P(X = x)$	$\int_A f(x) \, dx$
Somme/intégrale = 1	$\sum_x P(X = x) = 1$	$\int f(x) \, dx = 1$
Exemple DL	Sortie softmax	Espace latent VAE

Type	$\mathbf{\Sigma}$	Paramètres	Forme des contours
Isotrope	$\sigma^2 \mathbf{I}$	1	Sphères
Diagonale	$\text{diag}(\sigma_1^2, \ldots, \sigma_d^2)$	$d$	Ellipsoïdes alignés sur les axes
Complète	Matrice pleine	$d(d+1)/2$	Ellipsoïdes quelconques

Approche	Distribution explicite ?	Exemples	Avantage
Modèles génératifs	Oui ( $p_\theta(\mathbf{x})$ )	VAE, diffusion, flow	Échantillonnage, densité
Contrastif	Implicite (softmax/température)	SimCLR, MoCo	Simplicité
JEPA	Non	I-JEPA, V-JEPA	Pas de normalisation intractable
EBM	Énergie (pas normalisée)	Proposé par LeCun	Flexibilité maximale

Application	$K$	Rôle
Clustering d'embeddings	10-1000	Découvrir la structure des représentations
Modèle de langage (ancien)	256-2048	Modéliser les distributions acoustiques
Évaluation SSL	1000	Mesurer la séparabilité des classes

Concept	Essentiel à retenir
PMF / PDF	Masse (discret) vs densité (continu) — la PDF peut dépasser 1
CDF	$F(x) = P(X \leq x)$ — accumule les probabilités
Bernoulli	Binaire : $p$ ou $1-p$ — masquage dans I-JEPA
Catégorielle	$K$ classes — sortie softmax d'un classifieur
Gaussienne	$\mathcal{N}(\mu, \sigma^2)$ — omniprésente grâce au CLT
Gaussienne multivariée	$\mathcal{N}(\boldsymbol{\mu}, \mathbf{\Sigma})$ — contours = ellipsoïdes
Gaussienne isotrope	$\mathcal{N}(\mathbf{0}, \mathbf{I})$ — prior par défaut, sphérique

Distributions

Distributions de probabilité

Discret vs continu : deux mondes, mêmes règles

Distributions

Distributions de probabilité

Discret vs continu : deux mondes, mêmes règles

PMF, PDF et CDF

Distribution de Bernoulli et catégorielle

La distribution gaussienne : la reine des distributions

La gaussienne multivariée

La gaussienne isotrope : le prior par défaut

Application : les distributions dans le pipeline SSL

Mélange de gaussiennes et distributions complexes

Références