Skip to content
The loss curve

Loss

Un nombre qui dit à quel point le modèle se trompe sur la bonne réponse. L’entraînement la minimise.

Pour un modèle de langage, la loss par token est typiquement −log(probabilité) attribuée par le modèle au vrai prochain token. Sa somme ou moyenne sur une séquence donne un nombre comparable par token. La cross-entropy est la formulation standard.