Road to AMI Labs

Entropy

Théorie de l'information·Bloom 2

Chapitre 1 · Leçon 10

Entropie de Shannon

Le problème : combien d'information contient un message ?

Tu reçois un message : "il pleut à Londres". Pas très surprenant — il pleut souvent à Londres. Maintenant : "il neige au Sahara". Beaucoup plus surprenant ! L'entropie quantifie cette intuition : un événement improbable porte plus d'information qu'un événement prévisible. L'entropie d'une distribution mesure la quantité moyenne de surprise — c'est la mesure fondamentale de l'incertitude.

Key Idea

L'entropie $H(X)$ mesure l'incertitude moyenne d'une variable aléatoire. En deep learning, elle apparaît dans la cross-entropy loss, dans la régularisation par maximum d'entropie, et dans la théorie de l'information bottleneck. Minimiser la cross-entropy = minimiser la surprise du modèle face aux données.

L'information de Shannon : quantifier la surprise

Combien de bits pour encoder un événement ?

Tu lances une pièce équilibrée. Le résultat (pile ou face) nécessite 1 bit d'information. Tu lances un dé à 8 faces : il faut 3 bits (). Plus un événement est improbable, plus il faut de bits pour l'encoder — plus il est "surprenant".

Entropie de Shannon

Le problème : combien d'information contient un message ?

Key Idea

Base	Unité	Conversion	Utilisée dans
$\log_2$	bits	1 bit	Théorie de l'information, compression
$\ln$	nats	1 nat = $1/\ln 2 \approx 1.443$ bits	Machine learning, PyTorch
$\log_{10}$	hartleys	1 hartley = $\log_2 10 \approx 3.322$ bits	Rarement utilisé

	Prédit chat	Prédit chien
Vrai chat	0.40	0.10
Vrai chien	0.05	0.45

Contraintes	Distribution MaxEnt	Entropie
Aucune (support fini $\{1,\ldots,K\}$ )	Uniforme	$\log K$
Moyenne $\mu$ fixée ( $x > 0$ )	Exponentielle	$1 + \log \mu$
Moyenne $\mu$ et variance $\sigma^2$ fixées	Gaussienne	$\frac{1}{2}\log(2\pi e \sigma^2)$

Contexte	Rôle de l'entropie
Cross-entropy loss	$H(p, q) = H(p) + D_{\text{KL}}(p\\|q)$ — minimiser = réduire la surprise
Perplexité	$\text{PPL} = 2^{H}$ — mesure de qualité des modèles de langage
Label smoothing	Augmente l'entropie des labels → régularisation
Exploration en RL	Bonus d'entropie → encourage l'exploration
Temperature scaling	$T > 1$ augmente l'entropie de softmax, $T < 1$ la réduit
Information bottleneck	Minimiser $I(X; Z)$ = maximiser $H(Z

Température $T$	Softmax	Entropie (nats)
0.5	[0.82, 0.12, 0.06]	0.55
1.0	[0.59, 0.24, 0.17]	0.96
2.0	[0.43, 0.31, 0.26]	1.07
$\infty$	[0.33, 0.33, 0.33]	1.10 ( $= \log 3$ )

Entropy

Entropie de Shannon

L'information de Shannon : quantifier la surprise

Entropy

Entropie de Shannon

L'information de Shannon : quantifier la surprise

Entropie : l'incertitude moyenne

Bits vs nats : le choix de la base

Entropie jointe

Entropie conditionnelle

Principe du maximum d'entropie

Entropie et cross-entropy : le lien fondamental

Application : l'entropie dans le deep learning

Références

Concept	Essentiel à retenir
Self-information	$I(x) = -\log p(x)$ — surprise d'un événement
Entropie $H(X)$	Surprise moyenne — mesure l'incertitude d'une distribution
Bits vs nats	$\log_2$ vs $\ln$ — PyTorch utilise les nats
Entropie jointe	$H(X,Y)$ — incertitude totale de deux variables
Entropie conditionnelle	$H(Y
Maximum d'entropie	La gaussienne est MaxEnt sous contrainte de moyenne et variance
Température	Contrôle l'entropie du softmax — $T \uparrow$ → entropie $\uparrow$