Learning rate

Le scalaire qui multiplie chaque pas de descente de gradient. Trop petit et l’entraînement traîne ; trop grand et la loss diverge. L’hyperparamètre le plus important.

Continuer

← Tous les termes Voir les chapitres