Un cours interactif
Construis un LLM depuis zéro, une couche à la fois.
Vingt-et-un chapitres, chacun comme un labo de code exécutable. Tu inspectes le tokenizer, la tête d’attention, la boucle d’entraînement, l’optimiseur. Tu termines avec un petit transformer qui tourne sur ta machine, charges les vrais poids GPT-2 dans le même code, et livres un assistant spécialisé pour un domaine étroit.
Tu ne construiras pas ChatGPT. Tu construiras un petit modèle GPT-like honnête et inspectable, dont tu comprends chaque ligne — et c’est tout l’intérêt.
Le pendant constructif de Step by Token : là où Step by Token explique comment fonctionne un LLM, ce site montre comment en construire un.
Ce que tu construiras
- ton propre tokenizer (BPE) entraîné sur tes données
- un bloc Transformer écrit par toi en ~150 lignes de PyTorch
- un petit GPT entraîné depuis zéro sur ton laptop
- la même architecture chargée avec les vrais poids GPT-2 124M
- un chatbot instruction-tuned avec qui tu peux parler
- le tout dans un seul projet my-llm/ qui t’appartient
Pour qui c’est
- tu sais lire du JavaScript ou du Python (ou tu es prêt·e à apprendre en chemin)
- tu as utilisé un LLM et veux comprendre ce qu’il y a vraiment dedans
- tu préfères faire tourner du code que lire des équations
- tu veux un petit modèle que tu comprends, pas un champion de benchmark
Ce qu’il y a dedans
Partie 0 — Avant de commencer
chap. 0
Python, venv, PyTorch — la toolchain locale. À sauter si tu as déjà un Python 3.11+ et que pip install torch est un réflexe.
Partie I — Démarrer le projet
chap. 1-4
Tokens, bigrammes, BPE, embeddings. Tu démarres le projet local et construis les premières pièces d’un modèle de langage.
Partie II — Le faire apprendre
chap. 5-7
Neurone simple, MLP, optimiseurs. Le modèle arrête de compter et commence à progresser grâce aux gradients.
Partie III — Construire le transformer
chap. 8-10
Attention, têtes multiples, connexions résiduelles, puis le bloc transformer complet utilisé par les LLM modernes.
Partie IV — Entraîner et utiliser le LLM
chap. 11-16
Préparer les données, passer à PyTorch, entraîner un petit GPT, charger les poids GPT-2 dans le même code, générer, et lire honnêtement ses échecs.
Partie V — Le rendre utile, moins cher et utilisable
chap. 17-21
Instruction-tuning, LoRA, quantification, boucle de chat, et un capstone où tu livres un assistant spécialisé de bout en bout.
Partie VI — Appendices
optionnel
Approfondissements optionnels qui complètent le chemin principal : dérivations mathématiques et explications de concepts utilisés sans être déballés.
Ce qu’il te faut
- Être à l’aise pour lire du JavaScript ou du Python. Presque chaque chapitre embarque une cellule JS interactive dans le navigateur ; les chapitres 11 à 21 font tourner du Python en local.
- Python 3.11+ sur ta machine (3.13 recommandé). L’entraînement, le fine-tuning et l’inférence vivent dans my-llm/. PyTorch sur CPU suffit ; MPS / CUDA aident. Le chapitre 0 — Avant de commencer est la rampe d’accès.
- ~13 heures de concentration, ~2 Go de disque. Chaque chapitre = 7 à 18 minutes de lecture plus le temps d’exécution. PyTorch (~200 Mo), checkpoints d’entraînement et téléchargement des poids GPT-2 (~500 Mo) tiennent sous 2 Go.
Questions fréquentes
Qu’est-ce que The Loss Curve ?
Un cours interactif et code-first pour construire un modèle de langage style GPT depuis zéro. 21 chapitres, du bigram counter au chatbot avec qui tu peux parler.
Pour qui est ce cours ?
Pour les développeurs, apprenants techniques et indie hackers qui veulent comprendre les LLM en en construisant un. Lire du code (JS ou Python) suffit — aucun bagage ML requis.
Faut-il un GPU ?
Non. Chaque chapitre tourne sur un laptop normal. Le chapitre d’entraînement utilise un petit modèle et un petit dataset : ça finit sur CPU ; le GPU accélère mais n’est pas requis.
Quels langages le cours utilise-t-il ?
JavaScript pour les cellules interactives dans le navigateur, Python et PyTorch pour le projet local. Pas besoin de connaître les deux — prends celui du chapitre où tu es.
Est-ce gratuit ?
Oui. Tous les chapitres sont gratuits. Le projet local est à toi : garde-le, modifie-le, livre-le.
En quoi c’est différent d’un cours vidéo ?
Chaque concept est un bout de code que tu peux exécuter, modifier et inspecter. Rien n’est une boîte noire. Le cours associe de courtes explications à des artefacts exécutables que tu sauves dans ton propre projet.
Faut-il connaître Python ?
Un Python de base suffit. Le chapitre 0 couvre l’installation ; à partir du chapitre 11, on suppose que tu peux lire du PyTorch — on l’explique pas à pas.
Quel modèle aurai-je à la fin ?
Un petit modèle architecture GPT-2 que tu as entraîné toi-même, la même architecture chargée avec les vrais poids GPT-2 124M, plus une version fine-tunée pour le chat.
Prêt·e à commencer ?
Ouvre le chapitre 1 — 15 minutes suffisent.