Road to AMI Labs
Adam And Friends
Chapitre 1 · Leçon 8
Adam et ses variantes
Le problème : le SGD vanilla est trop lent
Tu entraînes un ViT sur ImageNet avec le SGD vanilla. Certains paramètres (les biais, les couches profondes) ont des gradients minuscules et bougent à peine. D'autres (les premières couches, les projections d'attention) ont des gradients énormes et oscillent. Un seul learning rate ne peut pas convenir à tous. Il faut un optimiseur qui adapte le learning rate à chaque paramètre individuellement.
Key Idea
Adam combine deux idées : le momentum (accumuler la direction moyenne du gradient) et les learning rates adaptatifs (normaliser par la magnitude historique du gradient). C'est l'optimiseur par défaut du deep learning moderne. AdamW corrige un bug subtil dans la régularisation, et LAMB/LARS permettent l'entraînement avec de très grands batches.
Momentum : accumuler l'inertie
Sortir des ravines
Imagine une loss en forme de vallée étroite : le gradient oscille d'un côté à l'autre de la vallée (direction transversale) tout en progressant lentement vers le minimum (direction longitudinale). Le momentum lisse ces oscillations en accumulant une moyenne mobile des gradients passés — comme une bille qui roule avec de l'inertie.
SGD avec momentum
Le momentum maintient une "vitesse" qui accumule les gradients passés :