Road to AMI Labs

Gradient Descent

Optimisation·Bloom 2

Chapitre 1 · Leçon 7

Descente de gradient

Le problème : trouver les meilleurs poids

Ton réseau de neurones a 300 millions de paramètres (un ViT-H). La loss est une fonction de ces 300M nombres. Tu veux trouver les valeurs qui minimisent la loss. Tester toutes les combinaisons ? Impossible — même avec 2 valeurs par paramètre, c'est $2^{300{,}000{,}000}$ combinaisons. La descente de gradient est la seule approche viable : à chaque step, tu bouges un peu dans la direction qui fait baisser la loss le plus vite.

Key Idea

La descente de gradient est l'algorithme d'optimisation fondamental du deep learning. Le gradient $\nabla_\theta \mathcal{L}$ pointe dans la direction de plus forte montée — on va dans la direction opposée. Le SGD (stochastic gradient descent) estime le gradient sur un mini-batch au lieu du dataset complet, rendant l'entraînement tractable.

Descente de gradient

Le problème : trouver les meilleurs poids

Key Idea

Variante	Batch size	Avantage	Inconvénient
Batch GD	$N$ (tout le dataset)	Gradient exact	Trop lent, trop de mémoire
SGD pur	$1$	Très rapide par step	Gradient très bruité
Mini-batch SGD	$B$ (32-4096)	Bon compromis	Choix de $B$ critique

Learning rate	Comportement
Trop grand ( $\eta > 2/L$ )	Divergence — la loss explose
Grand	Convergence rapide mais oscillations
Optimal	Convergence rapide et stable
Trop petit	Convergence très lente, piégé dans des minima locaux

Concept	Essentiel à retenir
Gradient	$\nabla_\theta \mathcal{L}$ — direction de plus forte montée
Dérivée partielle	$\frac{\partial \mathcal{L}}{\partial \theta_j}$ — sensibilité au paramètre $j$
Chain rule	Backpropagation = chain rule appliquée efficacement
SGD	Gradient estimé sur mini-batch — bruité mais rapide
Learning rate	Trop grand → divergence, trop petit → lent
Points selle	Le vrai obstacle en haute dimension (pas les minima locaux)
Stop-gradient	I-JEPA : pas de gradient dans le target encoder
Gradient clipping	Limiter $\\|\mathbf{g}\\|$ — indispensable pour les Transformers

Gradient Descent

Descente de gradient

Gradient Descent

Descente de gradient

Le gradient : la direction de plus forte montée

Dérivées partielles et la chain rule

Descente de gradient batch, stochastique et mini-batch

Convergence et le rôle du learning rate

Le paysage de la loss : minima, selles et plateaux

Le gradient en deep learning : cas concrets

Gradient clipping : dompter les gradients explosifs

Références