Lexique

Tous les termes techniques utilisés dans les chapitres. Survole un mot souligné dans un chapitre pour obtenir une définition rapide ; cette page contient les versions longues.

Adam: L’optimiseur le plus courant en deep learning moderne. Il garde des moyennes mobiles du gradient et du gradient au carré.; Combine le momentum (premier moment) avec une mise à l’échelle adaptative par dimension (second moment). Corrige le biais des deux. C’est l’optimiseur par défaut pour les transformers. AdamW est Adam avec un weight decay appliqué en dehors du gradient.
Alignement: Le travail qui transforme un prédicteur de prochain token en assistant utile : SFT, puis RLHF ou DPO sur préférences humaines.
Attention: Le mécanisme qui permet à un token de regarder d’autres tokens. Il calcule une somme pondérée de vecteurs de valeur.; Attention scalée par produit scalaire : A = softmax(QKᵀ / √d_k) · V. Q, K, V sont des projections de l’entrée. La matrice d’attention softmaxée indique, pour chaque token, combien il puise dans chacun des autres.
Attention multi-têtes: Plusieurs têtes d’attention en parallèle, chacune avec ses projections Q/K/V, puis concaténées et reprojetées.
Bigramme: Une paire de tokens consécutifs. C’est l’unité de contexte la plus simple qu’un modèle de langage puisse utiliser.; Un modèle bigramme donne une probabilité à un token uniquement à partir du token juste avant lui : P(w_t | w_{t-1}). Il ne voit pas plus loin qu’une position, mais c’est déjà un modèle de langage fonctionnel.
Byte-Pair Encoding (BPE): Méthode de tokenization qui part des caractères et fusionne progressivement la paire adjacente la plus fréquente.; À l’origine un algorithme de compression de données (1994). Utilisé par GPT-2/3/4 et la plupart des LLM modernes. Les fusions découvrent la morphologie : des suffixes comme « ing » ou « ed » émergent naturellement comme sous-mots fréquents.
Connexion résiduelle: output = input + sublayer(input). Elle aide les gradients à circuler dans des piles profondes.
Corpus: Le texte utilisé pour entraîner, inspecter ou évaluer un modèle de langage. Une phrase, un livre, ou des milliards de mots récupérés sur le web.
Descente de gradient: Procédure d’optimisation : soustraire un petit multiple du gradient aux paramètres à chaque étape.
Distribution de probabilité: Une liste de valeurs positives qui somment à 1, une par résultat possible. La sortie d’un modèle de langage est une telle distribution sur le vocabulaire.
Échantillonnage: Tirer une valeur aléatoire selon une distribution de probabilité. Dans un modèle de langage, choisir le prochain token en tirant un nombre contre la sortie du modèle.; Les stratégies d’échantillonnage (greedy, temperature, top-k, top-p) répondent toutes à la même question — étant donné une distribution sur le vocabulaire, quel token émet-on ? — mais arbitrent différemment entre déterminisme et diversité.
Embedding: Un vecteur dense et de faible dimension qui représente un token. Les mots utilisés dans des contextes proches finissent avec des vecteurs proches.; Les embeddings remplacent l’encodage one-hot des tokens par des vecteurs continus qui capturent des relations sémantiques. La géométrie de l’espace d’embeddings est porteuse de sens : certaines directions encodent des traits comme le genre, le registre ou la formalité.
Encodage one-hot: Un vecteur rempli de zéros avec un seul 1 à la position du token. Simple, mais très gaspilleur.
Entraînement: Ajuster les paramètres d’un modèle pour qu’il fasse mieux son travail sur un jeu de données. Pour un modèle de langage, cela revient à baisser la loss next-token sur le jeu d’entraînement.; Entraîner un bigramme se résume à incrémenter des compteurs. Entraîner un réseau de neurones, c’est faire tourner la descente de gradient sur des millions à des billions de paramètres. La boucle — mesurer son erreur, changer quelque chose pour la réduire, recommencer — est la même.
Entropie: Mesure d’étalement d’une distribution de probabilité. H = -Σ p log p. Une entropie basse veut dire concentrée sur peu de résultats ; haute, presque uniforme.
Entropie croisée: La loss standard pour la classification : −Σ y·log(p). Elle s’accorde naturellement avec softmax et sigmoïde.
Forme d’entrée: Les dimensions du tenseur d’entrée d’une couche de réseau de neurones. Par exemple, [batch_size, sequence_length] pour du texte.
GELU: Approximation lisse de ReLU utilisée dans les transformers. En gros x·Φ(x), où Φ est la CDF gaussienne.
Génération: Produire une nouvelle séquence de tokens en échantillonnant le modèle un pas à la fois. Chaque token émis devient l’entrée du pas suivant.
Gradient: Vecteur des dérivées partielles de la loss par rapport aux paramètres. Il indique dans quel sens ajuster chaque paramètre.
Hors vocabulaire: Un token ou une paire jamais observée à l’entraînement. Un modèle non lissé ne peut pas lui donner de probabilité.
Hyperparamètre: Un nombre qui contrôle l’entraînement mais n’est pas appris par l’optimiseur : learning rate, batch size, taille cachée, dropout, etc. C’est toi qui les fixes.
Inférence: Faire tourner un modèle entraîné sur de nouvelles entrées pour obtenir des prédictions. L’inverse de l’entraînement : aucun paramètre ne bouge.
Jeu de validation: Portion des données que le modèle ne voit jamais pendant l’entraînement. Sert à estimer la perplexité (ou tout autre score) sur des données qu’il n’a pas pu mémoriser.; Un split typique : 80 % entraînement / 10 % validation / 10 % test. La validation guide les décisions pendant le développement (quels hyperparamètres ? quand arrêter ?) ; le test n’est touché qu’une fois à la fin pour reporter un chiffre final.
Kneser-Ney: Un lissage plus fin qui retire une petite masse aux transitions vues et la redistribue via un repli mieux pensé qu’uniforme.
Learning rate: Le scalaire qui multiplie chaque pas de descente de gradient. Trop petit et l’entraînement traîne ; trop grand et la loss diverge. L’hyperparamètre le plus important.
Lissage: Famille de techniques qui donnent une probabilité positive à chaque transition possible, même jamais vue à l’entraînement.; Sans lissage, un modèle n-gramme s’effondre à perplexité = ∞ dès qu’il rencontre une transition inédite sur le jeu de validation. Laplace add-α et Kneser-Ney sont les deux méthodes classiques.
Lissage de Laplace: Le lissage le plus simple : ajouter une constante α à chaque cellule de la table de comptage avant de normaliser.
LLM (large language model): Un modèle de langage avec assez de paramètres et de données d’entraînement pour produire du texte cohérent sur plusieurs paragraphes. Les LLM modernes sont des transformers avec des milliards à des billions de paramètres.; Il n’y a pas de seuil exact de taille — « large » est une cible mouvante. En pratique, le terme couvre les modèles de langage à base de transformer à partir de quelques centaines de millions de paramètres, entraînés sur des centaines de milliards de tokens.
Loi de scaling: Observation empirique : la qualité progresse de façon prévisible avec les paramètres, les tokens d’entraînement et le compute.
LoRA: Low-Rank Adaptation. Fine-tune un modèle sans réentraîner ses poids : on fige W et on apprend une petite mise à jour A·B.
Loss: Un nombre qui dit à quel point le modèle se trompe sur la bonne réponse. L’entraînement la minimise.; Pour un modèle de langage, la loss par token est typiquement −log(probabilité) attribuée par le modèle au vrai prochain token. Sa somme ou moyenne sur une séquence donne un nombre comparable par token. La cross-entropy est la formulation standard.
Masque causal: Contrainte qui empêche le token i de voir les tokens futurs j > i pendant l’entraînement.
MLP (perceptron multicouche): Deux couches linéaires ou plus empilées avec des non-linéarités entre elles. Peut apprendre des frontières non linéaires.
Modèle de langage: Un modèle qui attribue une probabilité au token suivant à partir des tokens précédents. La génération est un échantillonnage répété de cette probabilité.; Tous les LLM modernes sont des modèles de langage : on leur donne une séquence de tokens, ils produisent une distribution de probabilité sur le vocabulaire. Le bigramme du chapitre 1, le transformer du chapitre 10 et GPT-4 partagent cette interface — seule la fonction au milieu change.
Momentum: Astuce qui accumule une vitesse issue des gradients récents. Elle lisse la trajectoire quand les pas se renforcent.
Multiplication matricielle: (A · B)[i,j] = Σ_k A[i,k] · B[k,j]. Le cœur arithmétique de chaque couche de réseau de neurones ; les GPU modernes et Apple Silicon ont des chemins dédiés pour l’accélérer.
Neurone: Somme pondérée des entrées suivie d’une non-linéarité : σ(Σ w_i·x_i + b). La plus petite unité apprenable d’un réseau.
Normalisation de couche: Normalise le vecteur d’activation de chaque token à moyenne 0 et écart-type 1. Stabilise les échelles entre couches.
Paramètre: Un des nombres apprenables du modèle. Les LLM modernes en ont des milliards à des billions ; le bigramme du chapitre 1 en a |vocab|² (un par cellule de la table de comptage).
Perplexité: Moyenne géométrique de l’inverse des probabilités sur une séquence. Elle baisse quand le modèle donne de fortes probabilités aux tokens observés.; Reportée comme exp(moyenne de la log-vraisemblance négative). Métrique d’évaluation classique pour les modèles de langage. Une perplexité de 50 signifie que le modèle est, en moyenne, aussi indécis que s’il devait choisir uniformément entre 50 tokens équiprobables.
Quantification: Stocker les poids en entiers basse précision (INT8, INT4) plutôt qu’en floats. Réduit taille et coût d’inférence.
Query / Key / Value: Trois projections de l’entrée utilisées par l’attention. Les queries demandent, les keys annoncent, les values contribuent.
ReLU: Rectified linear unit : max(0, x). La non-linéarité standard dans beaucoup de réseaux modernes.
Réseau feed-forward: Le MLP par token à l’intérieur d’un bloc transformer : deux couches linéaires séparées par une non-linéarité, appliquées indépendamment à chaque position. C’est là que vivent la plupart des paramètres du modèle.
Rétropropagation: Algorithme qui calcule le gradient de la loss par rapport à chaque paramètre en remontant la règle de chaîne à travers les opérations du réseau.
Sigmoïde: Fonction σ(x) = 1 / (1 + e^(-x)) qui ramène n’importe quel réel dans (0, 1).
Similarité cosinus: Mesure de l’alignement entre deux vecteurs : cos(a, b) = (a · b) / (‖a‖·‖b‖).
Skip-gram: Algorithme qui apprend des embeddings en rapprochant le vecteur d’un mot central des vecteurs de ses voisins.
Softmax: Normalise un vecteur de réels en distribution de probabilité : exp(x_i) / Σ exp(x_j).
Sous-mot: Un token plus court qu’un mot mais plus long qu’un caractère. C’est la granularité vers laquelle BPE converge.
Taille de bloc: Longueur maximale de contexte utilisée pendant l’entraînement. Elle fixe combien de tokens d’historique le modèle peut voir.
Token: L’unité de base qu’un modèle lit et écrit. Souvent un sous-mot, parfois un mot, parfois un caractère.; La tokenization est la première étape d’un pipeline de modèle de langage. Les tokenizers par espaces coupent les mots ; les tokenizers BPE apprennent une granularité entre mots et caractères.
Token de départ: Le premier token (ou un court prompt) que tu donnes à un modèle de langage pour démarrer la génération. Tout ce qui suit est échantillonné.
Tokenizer: La fonction qui découpe le texte brut en tokens. Du plus naïf (espaces + minuscules) aux schémas appris comme BPE.
Transformer: Architecture composée de blocs empilés attention multi-têtes + FFN avec résidus et layer norms. Dominante pour les LLM depuis 2017.
Vocabulaire: L’ensemble des tokens distincts qu’un modèle peut lire ou produire. Sa taille va d’environ 80 en caractères à près de 100 000 pour les tokenizers modernes.