Road to AMI Labs
Gradient Descent
Chapitre 1 · Leçon 7
Descente de gradient
Le problème : trouver les meilleurs poids
Ton réseau de neurones a 300 millions de paramètres (un ViT-H). La loss est une fonction de ces 300M nombres. Tu veux trouver les valeurs qui minimisent la loss. Tester toutes les combinaisons ? Impossible — même avec 2 valeurs par paramètre, c'est combinaisons. La descente de gradient est la seule approche viable : à chaque step, tu bouges un peu dans la direction qui fait baisser la loss le plus vite.
Key Idea
La descente de gradient est l'algorithme d'optimisation fondamental du deep learning. Le gradient pointe dans la direction de plus forte montée — on va dans la direction opposée. Le SGD (stochastic gradient descent) estime le gradient sur un mini-batch au lieu du dataset complet, rendant l'entraînement tractable.