Descente de gradient, AdamW, learning rate scheduling — comment entraîner un réseau de neurones
3 leçons · 1 quiz · flashcards