Road to AMI Labs

Adam And Friends

Optimisation·Bloom 2

Chapitre 1 · Leçon 8

Adam et ses variantes

Le problème : le SGD vanilla est trop lent

Tu entraînes un ViT sur ImageNet avec le SGD vanilla. Certains paramètres (les biais, les couches profondes) ont des gradients minuscules et bougent à peine. D'autres (les premières couches, les projections d'attention) ont des gradients énormes et oscillent. Un seul learning rate ne peut pas convenir à tous. Il faut un optimiseur qui adapte le learning rate à chaque paramètre individuellement.

Key Idea

Adam combine deux idées : le momentum (accumuler la direction moyenne du gradient) et les learning rates adaptatifs (normaliser par la magnitude historique du gradient). C'est l'optimiseur par défaut du deep learning moderne. AdamW corrige un bug subtil dans la régularisation, et LAMB/LARS permettent l'entraînement avec de très grands batches.

Momentum : accumuler l'inertie

Sortir des ravines

Imagine une loss en forme de vallée étroite : le gradient oscille d'un côté à l'autre de la vallée (direction transversale) tout en progressant lentement vers le minimum (direction longitudinale). Le momentum lisse ces oscillations en accumulant une moyenne mobile des gradients passés — comme une bille qui roule avec de l'inertie.

SGD avec momentum

Le momentum maintient une "vitesse" qui accumule les gradients passés :

Adam et ses variantes

Le problème : le SGD vanilla est trop lent

Key Idea

Momentum : accumuler l'inertie

Sortir des ravines

SGD avec momentum

Le momentum maintient une "vitesse" qui accumule les gradients passés :

Hyperparamètre	Valeur par défaut	Rôle
$\eta$	$10^{-3}$ (souvent $3 \times 10^{-4}$ pour Transformers)	Learning rate
$\beta_1$	0.9	Decay du momentum
$\beta_2$	0.999	Decay de la variance
$\epsilon$	$10^{-8}$	Stabilité numérique

	Adam + L2	AdamW
Régularisation	Dans le gradient : $g + \lambda\theta$	Séparée : $(1-\eta\lambda)\theta$
Effet sur les paramètres	Non-uniforme (divisé par $\sqrt{v}$ )	Uniforme
Performance	Sous-optimale	Meilleure généralisation
Utilisé par	Ancien code	BERT, GPT, ViT, I-JEPA

	SGD	Adam
L2 : $\mathcal{L}_{\text{reg}} = \mathcal{L} + \frac{\lambda}{2}\\|\theta\\|^2$	$\theta \leftarrow (1-\eta\lambda)\theta - \eta g$	$\theta \leftarrow \theta - \eta\frac{g + \lambda\theta}{\sqrt{v} + \epsilon}$
Weight decay : $\theta \leftarrow (1-\eta\lambda)\theta - \eta \cdot \text{update}$	$\theta \leftarrow (1-\eta\lambda)\theta - \eta g$
Équivalents ?	✅ Oui	❌ Non

Optimiseur	Batch size typique	Modèle	Temps d'entraînement
Adam/AdamW	256-4096	ViT, I-JEPA	Jours
LARS	4096-32K	ResNet (SimCLR)	Heures
LAMB	8192-65K	BERT	76 min (TPU v3 pod)

Batch size	SNR	Comportement
1	Très faible	Exploration maximale, convergence lente
32-256	Modéré	Bon compromis exploration/exploitation
4096+	Élevé	Convergence rapide, risque de sharp minima

Adam And Friends

Adam et ses variantes

Momentum : accumuler l'inertie

Adam And Friends

Adam et ses variantes

Momentum : accumuler l'inertie

RMSProp : normaliser par la magnitude

Adam : le meilleur des deux mondes

AdamW : corriger le weight decay

Weight decay vs régularisation L2

LAMB et LARS : entraîner avec des batches géants

Le bruit du gradient : feature, pas bug

Application : configurer l'optimiseur pour I-JEPA

Références

Hyperparamètre	Valeur
Optimiseur	AdamW
Learning rate de base	$1.5 \times 10^{-4}$
Weight decay	0.05
$\beta_1$	0.9
$\beta_2$	0.95 (pas 0.999 !)
Batch size	2048
Warmup epochs	15
Schedule	Cosine decay
EMA decay (target)	0.996 → 1.0

Concept	Essentiel à retenir
Momentum	Accumule les gradients passés — lisse les oscillations
RMSProp	Normalise par la magnitude historique — learning rate adaptatif
Adam	Momentum + RMSProp + correction de biais — l'optimiseur par défaut
AdamW	Weight decay découplé — corrige le bug de Adam + L2
Weight decay vs L2	Identiques avec SGD, différents avec Adam
LARS/LAMB	Adaptation par couche — permet les batches géants
EMA	Moyenne mobile des poids — target encoder dans I-JEPA