Loss
Un nombre qui dit à quel point le modèle se trompe sur la bonne réponse. L’entraînement la minimise.
Pour un modèle de langage, la loss par token est typiquement −log(probabilité) attribuée par le modèle au vrai prochain token. Sa somme ou moyenne sur une séquence donne un nombre comparable par token. La cross-entropy est la formulation standard.
Continuer