Adam
L’optimiseur le plus courant en deep learning moderne. Il garde des moyennes mobiles du gradient et du gradient au carré.
Combine le momentum (premier moment) avec une mise à l’échelle adaptative par dimension (second moment). Corrige le biais des deux. C’est l’optimiseur par défaut pour les transformers. AdamW est Adam avec un weight decay appliqué en dehors du gradient.
Continuer