Réseau feed-forward
Le MLP par token à l’intérieur d’un bloc transformer : deux couches linéaires séparées par une non-linéarité, appliquées indépendamment à chaque position. C’est là que vivent la plupart des paramètres du modèle.
Continuer
Le MLP par token à l’intérieur d’un bloc transformer : deux couches linéaires séparées par une non-linéarité, appliquées indépendamment à chaque position. C’est là que vivent la plupart des paramètres du modèle.
Continuer