Chapitre 8 · 18 min

Une tête d’attention à la main

Écris Q, K, V, les scores causaux, le softmax et les valeurs pondérées, puis ajoute le cœur de l’attention à ton modèle local.

Jusqu’au chapitre 7, le modèle savait ajuster des fonctions sur des exemples individuels. Les courbes de loss descendaient, les MLP résolvaient XOR, les optimiseurs faisaient leur travail. Le problème restant : un token n’a aucun moyen de regarder les autres tokens. Le bigramme ne voyait que le mot précédent ; un MLP appliqué à un embedding fixe ne voit que ce vecteur.

L’attention est le mécanisme qui laisse le contexte circuler. Depuis 2017, elle porte tous les modèles de langage modernes. L' est le mécanisme qui permet à un token de regarder d'autres tokens.

On va la construire de l’intérieur : quatre cellules exécutables sur une phrase jouet de 5 tokens avec des embeddings 4D. Ensuite, tu sauvegarderas une attention causale minimale localement.

Phrase : the cat sat on mat. Cinq tokens, embeddings 4D faits à la main.

1. Projeter en Q, K, V

Une tête d’attention a trois matrices apprises : W_Q, W_K, W_V. Multiplier l’entrée X par chacune produit les queries, keys et values :

Q = X \cdot W_Q, \quad K = X \cdot W_K, \quad V = X \cdot W_V

Intuition :

Queries : “qu’est-ce que je cherche ?”
Keys : “voilà ce que j’ai”
Values : “voilà ce que j’apporterai si tu me choisis”

Écris la multiplication de matrice pour Q. La même routine sert pour K et V.

Code · JavaScript

Le résultat est [seq_len × d_head]. Chaque ligne est la query d’un token.

2. Scorer chaque paire

On demande maintenant : à quel point chaque query s’intéresse à chaque key ? La réponse standard est un produit scalaire.

S_{ij} = Q_i \cdot K_j

S est une matrice [seq_len × seq_len]. S[i][j] signifie : “à quel point le token j est pertinent pour le token i ?”

Code · JavaScript

const Q = [[-0.06467898744158448,-0.383067964320071,-0.5517659769160673,-0.5722759396769106],[-0.3428033076925203,-0.3960761179914698,-0.5362637630430982,-0.25909419055096805],[0.04197900637518616,0.3198395101353526,0.21466135871596634,0.233505587792024],[-0.22951689227484168,-0.10490429599303752,0.16734989534597844,0.14173899395391346],[-0.15096713309176268,-0.47483426402322954,-0.5162483405554668,-0.5359004706377164]];
const K = [[-0.055523837544024,0.1317694243742153,-0.3074134003836661,0.1641569155966863],[0.08844281476922335,0.2644992340821773,-0.2946593648288399,-0.3999005194520578],[0.11448665759526194,-0.2437322179088369,-0.457520664576441,-0.02113267667591573],[-0.23517859787680204,-0.35880198501981797,-0.27154945773072536,0.07436675925273448],[-0.14809716811869295,0.09004585733637216,-0.2280376951210201,0.1551744936965406]];

La heatmap montre les scores bruts. La matrice n’est pas forcément symétrique : i qui regarde j n’est pas la même question que j qui regarde i, car les projections Q et K sont différentes.

3. Échelle et softmax

Les scores ne sont pas encore des probabilités. Deux transformations les convertissent ligne par ligne :

Diviser par √d_k.
Appliquer softmax à chaque ligne.

A = \text{softmax}\!\left(\frac{S}{\sqrt{d_k}}\right)

Code · JavaScript

Chaque ligne de la heatmap dit, pour un token donné, quelle fraction de sa représentation mise à jour viendra de chaque autre token. Les lignes somment à 1 : ce sont de vraies distributions.

4. Mélanger les values

Dernière étape : la sortie de chaque token est une somme pondérée des value vectors.

\text{output}_i = \sum_j A_{ij} \cdot V_j

Sous forme matricielle : output = A · V.

Code · JavaScript

const A = [[0.18433028475335717,0.20945956729883455,0.21649833875430616,0.2069129834851776,0.1827988257083245],[0.18948862362018845,0.19306357746806027,0.2114111460647294,0.21578654669288042,0.1902501061541415],[0.2090095699799156,0.2007663040662804,0.19021483677416276,0.191238849207182,0.20877043997245917],[0.20091411477737847,0.18876198838077066,0.19585442562483088,0.20973891235209327,0.2047305588649268],[0.18365665305321308,0.20408483166330174,0.21654106924716549,0.21227890095731872,0.1834385450790011]];
const V = [[-0.08353325412608684,0.3344551405170932,-0.3077680902555585,-0.05256128662731498],[-0.21529030799865723,0.28825221192091705,-0.6383409334579484,0.011550874449312687],[-0.49533970826305446,-0.40143128170166165,0.08953349215444176,-0.4998626644955948],[-0.43923813444562254,-0.3484798713121563,0.2413211710285395,-0.4131369926035404],[-0.06824458127375695,0.31688388949260116,-0.2490501166554167,-0.022843318409286453]];

return A.map((aRow) =>
  V[0].map((_, j) => {
    let s = 0;
    for (let k = 0; k < aRow.length; k++) s += aRow[k] * V[k][j];
    return s;
  })
);

C’est toute l’attention simple tête : cinq lignes de maths, quatre opérations matricielles. Empile ça, entraîne sur beaucoup de texte, et tu obtiens la famille GPT.

Pourquoi ça marche

Une tête peut apprendre différents motifs :

Copie : chaque token regarde le précédent.
Lookup : chaque the regarde le nom qui suit.
Accord : chaque verbe regarde son sujet.
Résumé : chaque token moyenne toute la séquence.

La descente de gradient découvre les motifs nécessaires. On ne les code pas à la main. L' permet au modèle d'apprendre différents motifs de relation entre les tokens.

5. Ajouter l’attention causale localement

Crée llm/attention.py :

"""Readable attention helpers before the PyTorch version."""
from __future__ import annotations
 
import math
 
 
Vector = list[float]
Matrix = list[Vector]
 
 
def dot(a: Vector, b: Vector) -> float:
    return sum(x * y for x, y in zip(a, b))
 
 
def softmax(values: Vector) -> Vector:
    m = max(values)
    exps = [math.exp(v - m) for v in values]
    total = sum(exps)
    return [v / total for v in exps]
 
 
def matmul(x: Matrix, w: Matrix) -> Matrix:
    columns = list(zip(*w))
    return [[dot(row, list(col)) for col in columns] for row in x]
 
 
def causal_attention(x: Matrix, wq: Matrix, wk: Matrix, wv: Matrix) -> Matrix:
    # [1]
    q = matmul(x, wq)
    k = matmul(x, wk)
    v = matmul(x, wv)
    scale = math.sqrt(len(k[0]))
 
    out: Matrix = []
    for i, query in enumerate(q):
        # [2]
        scores = [
            dot(query, key) / scale if j <= i else -1e9
            for j, key in enumerate(k)
        ]
        # [3]
        weights = softmax(scores)
        # [4]
        out.append([
            sum(weight * value[d] for weight, value in zip(weights, v))
            for d in range(len(v[0]))
        ])
    return out

[1] calcule les trois vues apprises de x.
[2] compare la query du token i à toutes les keys. j <= i est le masque causal.
[3] transforme les scores en distribution.
[4] construit la moyenne pondérée des values.

Le masque causal est crucial : le token i ne peut lire que 0..i. Sinon, pendant l’entraînement next-token, il pourrait regarder la réponse.

Recap

Q, K, V sont trois projections de la même entrée. - Les scores sont des produits scalaires query/key. - Scale + softmax donnent une distribution par token. - La sortie est une somme pondérée de values. - Ton projet local a maintenant llm/attention.py avec attention causale. - Une tête est un motif de routage d’information. Plusieurs têtes permettent plusieurs motifs simultanés.

Pour aller plus loin

The Illustrated Transformer.
Karpathy, “Let’s build GPT from scratch”.
Step by Token, chapitre 4.
La référence mathématique de chaque cellule vit dans components/chapter/ch08/_shared.ts.

Prochaine étape : multi-têtes et résidus — une tête ne suffit pas, et il faut une connexion pour en empiler beaucoup.