Skip to content
The loss curve

Entraînement

Ajuster les paramètres d’un modèle pour qu’il fasse mieux son travail sur un jeu de données. Pour un modèle de langage, cela revient à baisser la loss next-token sur le jeu d’entraînement.

Entraîner un bigramme se résume à incrémenter des compteurs. Entraîner un réseau de neurones, c’est faire tourner la descente de gradient sur des millions à des billions de paramètres. La boucle — mesurer son erreur, changer quelque chose pour la réduire, recommencer — est la même.