Chapitres · dans l’ordre de lecture

Tous les chapitres

Chaque chapitre est un artefact fonctionnel que tu peux manipuler, avec un texte court qui explique ce que tu viens de faire. Ils se construisent les uns sur les autres ; lis-les dans l’ordre.

Partie 0 — Avant de commencer

chap. 0

Python, venv, PyTorch — la toolchain locale. À sauter si tu as déjà un Python 3.11+ et que pip install torch est un réflexe.

00
Avant de commencer
Un chapitre court pour installer la toolchain locale — Python, virtualenv, PyTorch — pour que le reste du livre puisse se concentrer sur le modèle, pas sur l’environnement.
12 min

Partie 1 — Démarrer le projet

chap. 1-4

Tokens, bigrammes, BPE, embeddings. Tu démarres le projet local et construis les premières pièces d’un modèle de langage.

Partie 2 — Le faire apprendre

chap. 5-7

Neurone simple, MLP, optimiseurs. Le modèle arrête de compter et commence à progresser grâce aux gradients.

III

Partie 3 — Construire le transformer

chap. 8-10

Attention, têtes multiples, connexions résiduelles, puis le bloc transformer complet utilisé par les LLM modernes.

Partie 4 — Entraîner et utiliser le LLM

chap. 11-16

Préparer les données, passer à PyTorch, entraîner un petit GPT, charger les poids GPT-2 dans le même code, générer, et lire honnêtement ses échecs.

Partie 5 — Le rendre utile, moins cher et utilisable

chap. 17-21

Instruction-tuning, LoRA, quantification, boucle de chat, et un capstone où tu livres un assistant spécialisé de bout en bout.

Partie 6 — Appendices

optionnel

Approfondissements optionnels qui complètent le chemin principal : dérivations mathématiques et explications de concepts utilisés sans être déballés.

Tous les chapitres

Partie 0 — Avant de commencer

Avant de commencer

Partie 1 — Démarrer le projet

Le modèle le plus idiot qui existe

Compter ne suffit pas

Entraîne tes propres tokens

Donner du sens aux mots

Partie 2 — Le faire apprendre

Un neurone qui apprend

Empiler les couches

La descente de gradient en direct

Partie 3 — Construire le transformer

Une tête d’attention à la main

Multi-têtes et résidus

Le bloc transformer complet

Partie 4 — Entraîner et utiliser le LLM

Préparer un dataset

Le code minimal

La boucle d’entraînement

Génération et sampling

Charger les vrais poids

Pourquoi ton modèle parle mal

Partie 5 — Le rendre utile, moins cher et utilisable

Donner des instructions à ton modèle

Fine-tuning avec LoRA

Quantification simple

Parler à ton modèle

Livrer quelque chose d’utile

Partie 6 — Appendices

Appendice · La backprop à la main

Appendice · RLHF et DPO