Entraînement
Ajuster les paramètres d’un modèle pour qu’il fasse mieux son travail sur un jeu de données. Pour un modèle de langage, cela revient à baisser la loss next-token sur le jeu d’entraînement.
Entraîner un bigramme se résume à incrémenter des compteurs. Entraîner un réseau de neurones, c’est faire tourner la descente de gradient sur des millions à des billions de paramètres. La boucle — mesurer son erreur, changer quelque chose pour la réduire, recommencer — est la même.
Continuer