Skip to content
The loss curve

Réseau feed-forward

Le MLP par token à l’intérieur d’un bloc transformer : deux couches linéaires séparées par une non-linéarité, appliquées indépendamment à chaque position. C’est là que vivent la plupart des paramètres du modèle.