Learning rate
Le scalaire qui multiplie chaque pas de descente de gradient. Trop petit et l’entraînement traîne ; trop grand et la loss diverge. L’hyperparamètre le plus important.
Continuer
Le scalaire qui multiplie chaque pas de descente de gradient. Trop petit et l’entraînement traîne ; trop grand et la loss diverge. L’hyperparamètre le plus important.
Continuer