Skip to content
The loss curve

Normalisation de couche

Normalise le vecteur d’activation de chaque token à moyenne 0 et écart-type 1. Stabilise les échelles entre couches.