Skip to content
The loss curve

Attention

Le mécanisme qui permet à un token de regarder d’autres tokens. Il calcule une somme pondérée de vecteurs de valeur.

Attention scalée par produit scalaire : A = softmax(QKᵀ / √d_k) · V. Q, K, V sont des projections de l’entrée. La matrice d’attention softmaxée indique, pour chaque token, combien il puise dans chacun des autres.