Skip to content
The loss curve

Chapitre 16 · 13 min

Pourquoi ton modèle parle mal

Compare ton modèle local aux systèmes de frontière, puis trace les chemins pratiques qui peuvent vraiment créer de la valeur.

Lance scripts/generate.py depuis le chapitre 14 et lis la sortie. Tu obtiendras quelque chose de reconnaissable : retours à la ligne shakespearien, noms en majuscules, vocabulaire parfois archaïque. Localement cohérent ; globalement incohérent.

Lance maintenant scripts/sample_gpt2.py du chapitre 15 sur le même prompt. Phrases cohérentes, complétions factuelles, plus de vocabulaire archaïque. Les ont changé ; pas l’architecture. La différence de qualité vient de trois axes : échelle, données et — aucun n’existe dans le code que tu as écrit.

1. Échelle

Ton modèle : ~14M paramètres, quelques centaines de milliers de tokens utiles, minutes d’entraînement.

GPT-3 : 175B paramètres, 300B tokens, semaines sur des centaines de GPU.

Les scaling laws montrent que la qualité s’améliore de façon prévisible avec compute et données. La règle Chinchilla : le nombre compute-optimal de tokens est environ 20× le nombre de paramètres. Implémente et trace quelques modèles.

Code · JavaScript

Ton modèle est très sous-entraîné par rapport à cette règle, ce qui explique pourquoi “plus de steps” aide beaucoup à cette échelle. Le point clé : la plupart de l’écart de qualité est simplement l’échelle. Ça ne veut pas dire que préentraîner from scratch est le meilleur choix business ; en général, non.

2. Données

Ton corpus est Shakespeare : un auteur, une époque, un registre. Un LLM moderne voit livres, code, maths, conversations, docs techniques, pages web, articles scientifiques, plusieurs langues, exemples d’instruction-following.

Conséquences :

  • Prompts hors distribution : ton modèle ne sait pas parler de JavaScript si le mot n’apparaît pas.
  • Factualité : il n’a pas vu de texte factuel, donc il invente par défaut.
  • Registre : il parle un style. Un LLM généraliste choisit le registre depuis le contexte.

Ajouter plus du même texte aide moins qu’ajouter d’autres types de texte. Le mix d’entraînement est un problème de recherche à part entière.

3. Alignement

Échelle et données donnent un bon prédicteur de prochain token. Ce n’est pas automatiquement un assistant utile. Un GPT brut peut continuer une question par une autre question, une citation, une digression : tout cela apparaît dans le web.

L’alignement transforme un prédicteur en assistant :

  • SFT sur des exemples humains de bonnes réponses.
  • RLHF ou méthodes voisines avec préférences humaines.- DPO et autres alternatives plus récentes.

Pour notre scope, on fait la première de ces trois étapes. Le chapitre 17 montre le SFT sur ton modèle du chapitre 13, avec un petit dataset et le bon masque de . Les étapes de préférence (RLHF, DPO) demandent des données qu’on n’a pas — mais le SFT seul referme la majorité du gap de forme. La plupart du sentiment « ce n’est pas un assistant » vient de l’absence de SFT, pas de l’absence de RLHF.

4. Comment savoir si tu progresses ?

La dit « plus bas = mieux », mais c’est un scalaire qui ne survit pas à la comparaison entre datasets, vocabulaires ou tailles de modèles.

— la version lisible de la

La est exp(loss). Elle a une unité interprétable : le nombre moyen de suivants également probables encore considérés. Repères en anglais courant :

  • du chapitre 1 : ~100-1000 selon le .
  • Ton modèle du chapitre 13 sur Shakespeare validation : ~10-30.
  • GPT-2 small sur Wikipedia : ~30-40.
  • de frontière sur Wikipedia : ~15-20.

Plus bas = mieux, mais uniquement sur le même dataset.

Benchmarks

Les papiers utilisent HellaSwag, MMLU, LAMBADA pour comparer des modèles à l’échelle (≥1B paramètres). À ton échelle, ces scores sont du bruit — un modèle 14M sur MMLU reste près du 25 % aléatoire. Ne les chasse pas.

Qualitatif honnête

Pour les petits modèles, l’évaluation la plus utile reste : lire la sortie. Prends 5-10 prompts, compare ton modèle à un baseline crédible (ton modèle du chapitre 13, ou GPT-2 small via transformers.js). Quelques centaines de comparaisons et l’intuition s’installe — aucun scalaire ne la remplace.

5. Où est souvent la valeur commerciale

À cette échelle, ton modèle n’est pas un produit généraliste. Il est précieux comme objet pédagogique : tu as écrit les pièces et tu peux expliquer les paramètres. Commercialement, la valeur vient souvent de :

  • Données privées propres.
  • Intégration dans un workflow douloureux.
  • Spécialisation étroite.
  • Efficacité de service : quantization, cache, batching, routing.

De petits modèles peuvent être utiles pour des tâches étroites : autocomplete embarqué, détection d’anomalies par perplexité, style transfer, classification via un token attendu.

Recap

  • L’architecture est presque la même entre ton modèle et un moderne. - L’écart vient de l’échelle, des données et de l’. - Règle Chinchilla : optimaux ≈ 20 × . - Les données déterminent ce que le modèle peut apprendre. - L’ (SFT + RLHF/DPO) transforme un prédicteur next- en assistant. On fait la moitié SFT au chapitre 17. - La est la rendue lisible ; les benchmarks sont du bruit à ta taille ; lire côte à côte reste l’évaluation honnête. - Les petits modèles sont utiles quand la tâche est étroite et bien cadrée.

Pour aller plus loin

Ça ferme l’arc « construire ton LLM ». La partie V est du travail pratique par-dessus : donner au modèle la forme du chat, puis le rendre moins cher et utilisable.

Prochaine étape : la partie V commence avec donner des instructions à ton modèle, la manière la plus directe de transformer le prédicteur next-token du chapitre 13 en modèle qui répond.