Chapitre 9 · 14 min

Multi-têtes et résidus

Combine les têtes, normalise les flux résiduels et rapproche ton code d’attention local d’un bloc transformer empilable.

Au chapitre 8, tu as construit une tête d’attention. Elle calculait un motif d’attention : une matrice de qui écoute qui. C’est un seul motif de routage par couche.

Ce n’est pas assez. Le texte contient plusieurs relations simultanées : accord sujet/verbe, résolution de pronoms, modificateurs, similarité sémantique, biais de position. Un modèle avec une seule doit choisir.

La correction est évidente : lancer plusieurs têtes en parallèle. Chaque tête a ses propres W_Q, W_K, W_V, donc chacune apprend un motif différent. On concatène leurs sorties, puis on projette le résultat. C’est l’attention multi-têtes. La permet d'exploiter plusieurs motifs d'attention en parallèle.

Ce chapitre ajoute aussi les connexions résiduelles et la LayerNorm, les deux pièces qui permettent d’empiler des couches sans effondrer l’entraînement. Les et la sont essentielles pour les réseaux profonds.

1. Combiner plusieurs têtes

Tu as déjà une tête d’attention. Le chapitre fournit quatre sorties de têtes différentes, chacune [seq_len × d_head]. La cellule les combine :

Concaténer les sorties sur l’axe des features.
Projeter la matrice concaténée avec W_O.

Code · JavaScript

const headOutputs = [[[0.006524023743242489,-0.04115426205832195],[-0.005208950373451961,-0.026637202429023163],[0.00004645398046022875,-0.03469124907004992],[-0.0016089826119489933,-0.02890024803177559],[-0.0034798144386164256,-0.030496901693282435]],[[0.26199343645861495,-0.055571306858679316],[0.27740672968652097,-0.060343264639314186],[0.2629166635224559,-0.05651917631483711],[0.2721084958671301,-0.05455427669823554],[0.27463240200794875,-0.06269915857039404]],[[0.00979511199958421,-0.07040109074573757],[-0.002842881588421664,-0.02353395171003563],[0.00432918929425067,-0.05176588646364756],[0.007265131518560612,-0.057755845665906455],[-0.006869120448786251,-0.015058313219316338]],[[-0.0970746532159624,-0.08776188628515769],[-0.10953613440762612,-0.09664067347504038],[-0.11335836146213128,-0.09046677245032005],[-0.10314218215265353,-0.09463385988799941],[-0.11658579176011602,-0.09115463985352709]]];
const W_O = [[0.46990582230500877,0.13477940973825753,-0.19066809304058552,0.27269398933276534,-0.04336578771471977,0.07689674384891987,-0.4523545990232378,0.07993859192356467],[0.3426796665880829,-0.3275519139133394,-0.14470963925123215,-0.46316777751781046,-0.19288181909359992,-0.49206127994693816,0.3621637721080333,-0.44870377075858414],[-0.10153895057737827,0.05329963308759034,-0.2933458664920181,-0.4502252493984997,0.3320008076261729,0.13636987935751677,-0.41775896376930177,0.14144318411126733],[-0.08157210098579526,-0.26036845287308097,0.19577587605454028,-0.483314567245543,-0.16295259515754879,0.44701072317548096,0.2845541818533093,-0.052633024053648114],[-0.43732236069627106,0.2630879902280867,0.44416146888397634,-0.3549151988700032,0.1733189590740949,-0.07958489214070141,0.10316620348021388,0.2081257316749543],[-0.33900495944544673,-0.25300398701801896,-0.17465936369262636,0.28418024093843997,-0.48341547860763967,0.028627362800762057,-0.43921846663579345,0.38533780188299716],[-0.011953172041103244,0.41202278016135097,0.29528715973719954,-0.05102572403848171,0.2709503034129739,0.2516049041878432,-0.11669132369570434,0.2850237861275673],[-0.49120995961129665,0.3477829461917281,0.06488890456967056,0.3177398229017854,-0.3578086751513183,0.055143785662949085,-0.015944826882332563,0.17563496879301965]];

function matmul(A, B) {
  return A.map((row) =>
    B[0].map((_, j) => row.reduce((s, x, k) => s + x * B[k][j], 0))
  );
}

const seqLen = headOutputs[0].length;
const concatenated = [];
for (let i = 0; i < seqLen; i++) {
  const row = [];
  for (const out of headOutputs) row.push(...out[i]);
  concatenated.push(row);
}
return matmul(concatenated, W_O);

Le résultat garde la forme de l’entrée, [seq_len × d_model], mais chaque token reflète maintenant plusieurs motifs d’attention.

2. Inspecter les motifs appris

Les quatre matrices d’attention pré-calculées sont affichées en heatmaps. Certaines sont nettes, d’autres diffuses.

Une façon de mesurer la concentration est l’ : H = -Σ p log p. Une entropie basse signifie que la tête se concentre sur peu de tokens.

Code · JavaScript

const headAttentions = [[[0.24033894515816356,0.1715520863093356,0.2114359327675637,0.19331853135012864,0.18335450441480833],[0.18126900639872534,0.21817090571247807,0.19108154907277242,0.2064642449717114,0.2030142938443127],[0.20964939619316095,0.19829673256622582,0.19839713204779558,0.20636764468287028,0.18728909450994732],[0.1930305672432933,0.20078517411152413,0.2011947446877068,0.19492010509597726,0.21006940886149858],[0.19280684518000346,0.21290305409189822,0.19182101112253647,0.2108394894156527,0.1916296001899091]],[[0.19564210992281736,0.20522530987753035,0.1982732770414527,0.19343200196466856,0.2074273011935311],[0.19719792295051053,0.19424866280280637,0.2002669914159244,0.20991096294068534,0.19837545989007332],[0.1971816059905993,0.2049053859415067,0.19864662666132643,0.19344890085882332,0.2058174805477443],[0.1876255337800481,0.19586469712747423,0.19794809204522384,0.21034665502969843,0.2082150220175553],[0.20398118711456115,0.19762474396117477,0.20112559052280266,0.2023102721272223,0.19495820627423907]],[[0.2335211490202643,0.17956581962520843,0.2050937890172186,0.20122772598297944,0.1805915163543291],[0.1693559910269195,0.22252290528834306,0.19173768991816162,0.19673872394363315,0.2196446898229426],[0.2058564637176301,0.1948469192699552,0.2024202018317569,0.2004647794011419,0.19641163577951587],[0.21708872234496887,0.19163405643149733,0.20059615004697595,0.20071948394966047,0.1899615872268975],[0.15555710919643453,0.22864292751263832,0.19145877779683296,0.19498706928043988,0.22935411621365426]],[[0.21488596545253733,0.1942922686538803,0.20035011967795363,0.1889861653424531,0.20148548087317553],[0.18867860141117057,0.20451189522469682,0.19990755844350866,0.20946436026178242,0.19743758465884148],[0.19003178894307804,0.20257803632064877,0.1956106965747664,0.20300845629002562,0.20877102187148125],[0.19918707476894928,0.200819792325476,0.2016487860621542,0.20259964046529078,0.19574470637812968],[0.1850877272324874,0.204251952362902,0.1945576124591944,0.2060072752661751,0.21009543267924097]]];

return headAttentions.map((A) => {
  // Average entropy across rows; lower = sharper (more focused) attention.
  let total = 0;
  for (const row of A) {
    let h = 0;
    for (const p of row) {
      if (p > 0) h -= p * Math.log(p);
    }
    total += h;
  }
  return total / A.length;
});

Attention patterns across heads · log(n) ≈ 1.61 = maximum entropy for 5 tokens

Head 0

Head 1

Head 2

Head 3

Tu devrais voir des différences entre têtes. Dans un vrai transformer, on trouve des têtes spécialisées : copie, induction, suivi de noms, syntaxe. On nomme des motifs découverts ; on ne les a pas demandés explicitement.

3. Résiduel + LayerNorm

Brancher une sous-couche directement dans la suivante casserait l’entraînement :

Gradient qui disparaît : chaque couche compresse un peu le signal.
Dérive des représentations : les magnitudes explosent ou s’écrasent.

La connexion résiduelle corrige le premier point : output = input + sublayer(input). Le gradient a un chemin propre à travers l’addition. La permet aux gradients de circuler proprement à travers les couches profondes.

La LayerNorm corrige le second : après l’addition, on normalise chaque ligne de token à moyenne 0 et écart-type 1. La stabilise l'entraînement en maintenant des échelles d'activation constantes.

\text{output} = \text{LayerNorm}(\text{input} + \text{sublayer}(\text{input}))

Code · JavaScript

const input = [[0.1722561160568148,0.3359460374340415,0.24966045306064188,-0.45108286174945533,-0.08326066844165325,-0.15437222714535892,-0.4247482428327203,0.4315404777880758],[0.3124719588086009,0.16357270628213882,-0.1795760642271489,0.23023861972615123,0.0726901029702276,-0.07814504113048315,0.21919606975279748,-0.45246966392733157],[0.21393981738947332,0.26033141487278044,0.34459329512901604,-0.21640893816947937,0.37971309246495366,0.3331939948257059,0.27233338518999517,0.3038215893320739],[0.4569892541039735,0.15500893257558346,0.1347860023379326,-0.4650303083471954,-0.3270232130307704,-0.32052472373470664,0.20319517981261015,-0.22114043263718486],[-0.22248202515766025,0.1737063534092158,0.1493945443071425,0.4830763984937221,0.3185544393491,0.3339637068565935,0.38362079788930714,-0.16895917593501508]];
const sublayerOutput = [[0.030746037658297212,-0.007337692300059102,-0.10073556791498388,-0.11667242278407572,0.1445227237775349,-0.0004197836645400228,-0.09845980770751032,-0.009202562422309067],[0.023180542511954182,-0.0350149384164827,-0.12410982728856651,-0.11561002292324904,0.12308004590746602,-0.009774005242357022,-0.11598472108042567,-0.0039049267946852997],[0.02749676178319489,-0.023834476259704362,-0.11155860937300428,-0.11418268366578095,0.13061786272389908,-0.007673630471663897,-0.10064991460361065,-0.01151294239543068],[0.03028118258996717,-0.020928173726831478,-0.1092961464796267,-0.12699395211080095,0.1399677738551117,-0.006583116812506847,-0.09927653470995815,-0.012564160996429631],[0.019421262850817963,-0.03725240071044256,-0.12852271266974538,-0.10502267181400037,0.114544210794588,-0.010081421076885325,-0.1210789948590502,-0.0009210130963653272]];
const eps = 1e-5;

const summed = input.map((row, i) =>
  row.map((v, j) => v + sublayerOutput[i][j])
);
return summed.map((row) => {
  let mean = 0;
  for (const v of row) mean += v;
  mean /= row.length;
  let v = 0;
  for (const x of row) v += (x - mean) * (x - mean);
  const std = Math.sqrt(v / row.length + eps);
  return row.map((x) => (x - mean) / std);
});

Les statistiques de ligne doivent montrer moyenne 0 et écart-type proche de 1. C’est l’invariant que LayerNorm donne à la couche suivante.

Pourquoi ce chapitre compte

Nous avons maintenant les pièces d’un bloc transformer :

Attention : extraire de l’information d’autres positions.
Multi-têtes : plusieurs routes d’attention.
Résiduel + LayerNorm : l’infrastructure pour empiler. Les et la sont essentielles pour les réseaux profonds.

Le prochain chapitre les assemble en bloc complet.

4. Ajouter les helpers résiduels et de normalisation

Ajoute à llm/nn.py :

import math
 
 
def add(a: Matrix, b: Matrix) -> Matrix:
    return [
        [x + y for x, y in zip(row_a, row_b)]
        for row_a, row_b in zip(a, b)
    ]
 
 
def layer_norm(x: Matrix, eps: float = 1e-5) -> Matrix:
    out: Matrix = []
    for row in x:
        mean = sum(row) / len(row)
        var = sum((value - mean) ** 2 for value in row) / len(row)
        denom = math.sqrt(var + eps)
        out.append([(value - mean) / denom for value in row])
    return out

add est la connexion résiduelle.
layer_norm travaille ligne par ligne, donc chaque token est normalisé indépendamment.
eps évite la division par zéro.

Tu as maintenant l’invariant du transformer : chaque sous-couche accepte une matrice et retourne une matrice de même forme.

Recap

L’attention multi-têtes lance H attentions en parallèle, concatène et projette. - Des têtes différentes apprennent des motifs différents. - Connexion résiduelle = `output = input

sublayer(input)`. - LayerNorm stabilise l’échelle de chaque token. - Ton projet local a maintenant les helpers résiduels et LayerNorm.

Pour aller plus loin

Prochaine étape : le bloc transformer complet — assembler les pièces dans l’unité qu’on empile.