Skip to content
The loss curve

Taille de bloc

Longueur maximale de contexte utilisée pendant l’entraînement. Elle fixe combien de tokens d’historique le modèle peut voir.